武汉市论坛

注册

 

发新话题 回复该主题

数据实战新冠疫情对武汉经济的影响研究基于 [复制链接]

1#
北京医院治雀斑 https://m-mip.39.net/baidianfeng/mipso_8714638.html

新冠疫情对武汉经济的影响研

究——基于双重差分模型的实证

*希鑫胡佳生钟雪丽

01

选题背景

重大突发事件不可避免的会对社会经济产生巨大的负面影响,如何准确地对其进行测度是一项重要的课题。受到新型冠状病*肺炎疫情的影响,我国经济遭受重创,面临着严峻的挑战。武汉作为疫情最早爆发、感染病例最多的地区更是首当其冲,经济活动在第一季度基本进入休克状态。本文结合机器学习算法和双重差分模型,分别从GDP、财*、消费、外贸、金融以及投资这六大维度全面测度了新冠疫情对武汉经济造成的冲击,对疫情损失评估以及*府*策规划具有重要参考意义。

02

创新点

2.1填补现有研究的空白

现有关于新冠疫情影响经济的研究主要有两类。第一类集中于疫情对中国整体层面的影响,着重讨论疫情对某些宏观指标的影响机制以及作用途径,对数据仅进行简单的描述性统计,以理论为主;第二类着重在微观层面分析新冠肺炎疫情对单个行业或领域造成的冲击。本文通过实证研究,在城市层面从六大维度全面分析了新冠疫情对武汉经济的影响,填补了现有的研究空白。

2.2改善传统方法的不足

官方发布的统计数据大多以“同期比”为主,该方法在度量某些有季节性规律的经济指标时表现较好,但无法定量分析事件冲击与经济变动间的因果关系。本文通过双重差分模型构造一个反事实框架,能够排除其它不可观测因素对经济变动造成的影响,比较准确地度量出疫情冲击对武汉经济造成的处理效应。

2.3将机器学习与经济研究有机结合

随着大数据时代的到来,不管是数据量还是算力都呈现井喷式地爆发,人工智能学科迎来了一波热潮,机器学习作为其中的一大重要分支在学术界和业界都也发挥了不可忽视的作用。本文将机器学习的方法融入经济分析的框架中,结合经典无监督算法中的凝聚层次聚类与传统计量经济学中的双重差分模型,充分发掘出数据中包含的信息,为实证分析过程提供了强大且便捷的助力。

03

数据来源与指标选取

遵循科学性、全面性和可操作性原则,本文在全国范围内选取了22个省会城市和计划单列市作为候选对照组,采用武汉年第一季度至年第二季度共22期的六大经济指标数据进行实证分析。经济数据来源于国民经济和社会发展统计公报、各省市统计局、海关、地方金融工作局等官方公开文件,疫情感染病例数据来源于丁香园发布的疫情实时动态。

同时考虑到指标必须全面、合理地反映出样本城市的经济水平,本文参考李菁()对22个经济指标做出的重要性评估,选取以下六个指标:地区GDP、一般公共预算总收入、进出口总额、社会消费品零售总额、城乡居民储蓄余额、和固定资产投资总额。从统计意义来看,在因子分析中这6个经济指标的方差贡献率占所有22个指标累积方差贡献率的比重较高,即具备较大的因子载荷。从经济意义看,这6个指标能较为全面地反映某地区的经济运行情况,准确地刻画出地区生产总值、财*、金融、消费、外贸以及投资的变动情况,是评价经济水平的重要综合指标。

04

模型介绍

4.1凝聚层次聚类

根据数据有无标签,机器学习可分为无监督学习和有监督学习,聚类是无监督学习中的一种经典算法。聚类的目的在于根据事先没有给定标签的样本集,依照某种度量标准(一般为相似度、距离等),将其归类为不同的簇。常见的聚类算法有六种:K-Means聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)、图团体检测、凝聚层次聚类、基于高斯混合模型(GMM)的最大期望(EM)聚类。其中层次聚类根据分解次序的不同又可分为两种:有自下而上的凝聚层次聚类(AgglomerativeNesting)、自上而下的分裂层次聚类(DivisiveAnalysis)。

本文采用凝聚层次聚类,它假设类别之间存在层次结构,将样本聚到层次化的类中。凝聚层次聚类的具体过程如下:对给定的样本集合,开始将每个样本各自分到一个类,之后按照一定规则,将满足规则条件的两类进行合并,如此反复进行,每次减少一个类,重复此操作直到满足停止条件,得到层次化的类别。因此进行凝聚层次聚类需要预先确定三个要素:距离或相似度、合并规则以及停止条件。

4.2双重差分模型

双重差分模型(difference-in-differences)是计量经济学中重要的实证方法,一般用于定量评估*府*策实施或外生冲击造成的干预处理效果,其原理是基于一个反事实的框架构建处理组和对照组,再根据两者的差异来估计被观测因素Y的变化。

如果一个外生的冲击,使得样本分为受影响的处理组和未受影响的控制组,且在受到冲击前处理组和对照组之间具有相同的变化趋势,即满足双重差分模型中重要的共同趋势假设前提,这样即使对照组在冲击发生后被观测因素的变动看作是不可观测的,我们也可得到处理组未受冲击影响时的反事实结果。然后通过观测事实结果和反事实结果之间的差异,就可以较准确地估计出冲击造成的干预效果。双重差分模型的核心思想在于利用处理组的前后变化减去控制组的前后变化,模拟出处理组在处理后与处理前的差异,最终得到冲击干预的处理效应。

05

实证分析

5.1对照组选取

为了较为准确地估计出疫情冲击带来的处理效应。本文在全国范围内选取了22个省会城市以及计划单列市作为对照组候选城市,利用凝聚层次聚类算法选取出在疫情前与武汉经济水平相当的城市,以消除疫情对不同经济水平的城市产生的异质性影响,再结合各地的疫情感染人数挑选出合适的对照组城市。

选取欧氏距离为样本之间距离,定义当闵可夫斯基距离中p=2时称为欧几里得距离,表示为:

合并规则为类间距离最小,类间距离分别使用了ward、最大、平均、最小为合并规则,终止条件类的个数为1,即所有样本聚为一类为停止条件,凝聚层次聚类算法的流程如下:

输入:n个样本组成的样本集合及样本之间的距离;

输出:对样本集合的一个层次化聚类

(1)计算n个样本之间的欧氏距离

记作矩阵

(2)构造n个类,每个类只包含一个样本。

(3)合并类间距离最小的两个类,其中最短距离为类间距离,构建一个新类。

(4)计算新类与当前各类的距离。若类的个数为1,终止计算,否则回到步3。

结果显示:四种类间距方法都将武汉和杭州归为一类,表明杭州是与武汉经济水平最接近的城市。再根据疫情蔓延的实际情况,武汉新冠肺炎累计确诊人数达到例,而杭州新冠肺炎人数为例,且大多数为发散病例,因此可以认为武汉经济受到的疫情冲击要远高于杭州。结合以上两点,本文选取杭州作为双重差分模型中的对照组。

图1城市聚类谱系图

5.2平行趋势检验

平行趋势,又称共同趋势(

分享 转发
TOP
发新话题 回复该主题