大数据预测性分析(这样做大数据分析和预测)

大数据预测性分析(这样做大数据分析和预测)(1)

油价涨,股指涨?

股指涨,房地产市场指数上升?

降雨量多,通货膨胀率高?

........

注意了!这些“结论”即便来自大数据分析和预测,它们有可能也是错误的。

数据时代,从政府治理、企业运营到个人投资,我们的预测和决策越来越倚重大数据分析。统计学,则是数据分析的“灵魂”。如果分析路径错误,那么有可能造成重大决策失误。以上“结论”可能错误的原因在于,他们忽略了数据分析中的“虚假回归”现象,往往得出错误的相关性推断。

北京大学光华管理学院商务统计与经济计量系副教授涂云东在“虚假回归”领域进行了深入研究。由涂云东教授与其指导的博士毕业生王莹(现任中国人民大学副教授)共同撰写的论文“Spurious Functional-coefficient Regression Models and Robust Inference with Marginal Integration”发表在国际顶级期刊Journal of Econometrics上。论文提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。这一方法的提出,对于大数据分析和预测能力的提升,有着重要意义。

此前,涂云东教授对于“虚假回归”的相关研究已经发表在Journal of Econometrics,Oxford Bulletin of Economics and Statistics, Economics Letters等国际专业期刊上。

大数据预测性分析(这样做大数据分析和预测)(2)

01

数据不平稳,相关性不靠谱

在经济学研究中,一个重要的课题就是检验两个时间序列数据是否具有如下的“相关关系”(通俗地说自变量x的变化导致因变量y的变化):

对于平稳的时间序列数据,检验上述线性相关关系的方法是先基于模型(1)得到系数β的最小二乘估计,然后基于标准正态分布分位数做传统的t检验。然而,许多经济数据常常是非平稳的,即不同时刻的数据并不具有相同的概率分布(均值或者方差随时间变化)。典型的“非平稳数据”包括:有增长趋势的收入和消费、带有泡沫的金融数据等等。有趣的是,如果对两个独立的非平稳时间序列和按照上述步骤进行检验,常常会得到两个序列是相关的结论,这便是虚假回归现象。也就是说,它们之间统计意义上的相关性,让人错误地认为两者之间有关联,但事实上并非如此。

在经济学界,诺贝尔经济学奖得主Granger和其合作者Newbold于1974年在计量经济学顶级期刊Journal of Econometrics发表文章指出了该现象的存在。他们通过对两个独立的单位根过程(系数为1的一阶自回归序列,是非平稳的过程)的数值模拟发现,回归系数相应的t统计量非常大,拟合优度也比较大,Durbin-Watson统计量则接近于0(这意味着残差可能是单位根过程)。该现象长期困扰着经济学家。

直到1986年,著名计量经济学家Peter Phillips在Journal of Econometrics发表文章对虚假回归进行了理论解释。文章证明了对于两个独立的单位根过程,基于模型(1)的t统计量会随着样本量增加而发散,从而在理论上解释了Granger和Newbold数值模拟的结果。同时Phillips还证明了,对t统计量以一定的发散速率标准化,可以收敛到某个非标准的分布,会收敛到某随机变量,Durbin-Watson统计量则会收敛到0。因此,使用标准化后的t统计量以及该非标准分布的分位数可以针对和的相关关系进行假设检验,从而避免出现虚假回归的现象。这说明,Granger and Newbold (1974)所发现的虚假回归现象的本质是基于错误的极限理论实施了假设检验。

虚假回归现象广泛出现在实证分析中,例如英国的累计降雨量与通货膨胀率之间的关系,股票收益与天气之间的关系等。更多的实证研究中的虚假回归现象,可以参考涂云东教授与其合作者2019年发表的研究及其引用的文献。

大数据预测性分析(这样做大数据分析和预测)(3)

02

利用平衡模型的稳健推断,

“打击”虚假回归

然而,在实际应用中,Phillips的理论在研究经济数据间的相关关系上仍有很大的局限性。首先,Phillips 1986年提出的标准化后的t检验,其极限分布是非标准的,需要通过数值模拟得到检验需要的拒绝域,应用起来非常麻烦;其次,该虚假回归的理论局限于与为单位根过程。而在实证研究中,仅用单位根过程去刻画非平稳数据有时是不准确的,特别是很多经济和金融时间序列常表现为部分(近似)单位根过程,以及中度偏离单位根过程(Process Moderately Deviated for a Unit Root, PMDUR),例如股票价格、房价以及其它带有泡沫的金融数据等。基于上述原因,涂云东教授与合作者们在2017年,2019年和2020年发表文章针对这些非平稳过程统计推断中出现的虚假回归现象进行了研究,并提出一种基于平衡回归模型的稳健推断方法解决上述问题。

当与为互相独立的部分单位根过程时,涂云东教授等通过数值模拟发现,基于模型(1)所作的t检验会过度拒绝原假设,即虚假回归出现。当与为互相独立的PMDUR时,他们从理论上证明了,基于模型(1)所作的t检验会发散,与Phillips 1986年的结论类似,如果对t统计量进行适当标准化,可以收敛到某个带有局部参数的非标准分布。

在进一步的研究中,涂云东教授等通过数值模拟展示了当与为独立的PMDUR,在样本量为100和400时,两种传统的检验相关关系的方法:t检验和Johansen协整检验的拒绝频率。(通俗来说,对于非平稳数据与,如果(1)满足且残差是平稳的,就称与具有协整关系。协整关系本质是一种特殊的回归关系,因此Johansen协整检验也可以用于检验与的相关关系。)

下面的热图截取自涂云东教授2020发表的论文。图中横纵坐标与代表了PMDUR的局部参数。当,该过程常被应用于股票收益和汇率的建模;当,它常被应用于具有泡沫的金融数据的建模;当,该过程为单位根过程。

大数据预测性分析(这样做大数据分析和预测)(4)

上图反映了传统的t检验在标准正态分布0.05分位数下的拒绝频率。图片中灰色代表了拒绝频率大于0.5,因此,该检验倾向于拒绝,即虚假回归现象出现。

首先利用Johansen协整检验作为预检验,再采用传统的t检验,研究者们得到了下面的热图:

大数据预测性分析(这样做大数据分析和预测)(5)

从上图可知,Johansen协整检验的拒绝频率对于PMDUR不同的局部参数差异较大,并不具备稳健性。尤其是当与均大于0时,Johansen检验会过度拒绝原假设,无法避免虚假回归现象。

因此,当与为部分(近似)单位根过程以及PMDUR时,需要一种检验两者相关关系的稳健方法。需要指出的是,类似于Phillips 1986年提出的标准化t检验的方法对与均为PMDUR的情况并不适用。这是因为:第一,如前文所述,标准化后的t统计量的极限分布与局部参数有关,然而现有的估计方法很难给出局部参数的准确估计,因此没有办法得到正确的极限分布的分位数,从而无法给出假设检验合适的拒绝域;第二,即使存在局部参数的相合估计,但是由于极限分布是非标准的,需要大量的模拟来确定该分布的分位数,运算代价很大。

基于上述原因,涂云东教授与合作者们巧妙地提出使用基于平衡回归模型的统计推断方法来解决虚假回归问题。平衡回归方法最早见于Hamilton(1994),作为解决单位根过程虚假回归的一种简单方法。其思路是在回归模型(1)的等式右侧分别加入自变量和因变量的滞后项,当与为一阶自回归过程时,滞后项的加入可以有效吸收数据的相依性(persistence)。

为了研究平衡模型解决虚假回归问题的能力,涂云东教授等首先通过模拟展示了对于部分单位根模型,不同推断方法得到的t统计量在标准正态分布0.05分位数下的拒绝频率。

大数据预测性分析(这样做大数据分析和预测)(6)

这里TAR,LSTAR,ESTAR分别代表不同种类的部分单位根生成过程,M1代表了基于模型(1)得到的t统计量,M2的推断方法基于Zhang (2013),M3为基于平衡模型得到的t统计量。可以看出,只有基于平衡模型的推断对于部分单位根生成过程具有稳健性。因此,揭示了平衡回归在解决部分单位根过程虚假回归问题中的可行性和稳健性。

接着,对于PMDUR,涂云东教授等从理论上证明了基于平衡回归模型得到的t统计量收敛到标准正态分布,收敛到1,Durbin-Watson统计量收敛到2。需要强调的是,上述推断过程和极限性质,并不受数据生成过程中冗余参数和的影响,因此便不需要和的准确估计。这说明基于平衡模型所建立的统计推断方法的独特魅力:它不仅具有稳健性,而且在实际应用中简单易行,只需要计算经典的t统计量并利用标准正态分位数即可实现虚假回归的甄别。

综上所述,当与为部分单位根过程或者PMDUR时,基于平衡模型的传统的t检验可以用于检验两者的相关关系,且该检验方法对数据生成过程的种类具备稳健性(例如TAR,LSTAR,ESTAR或者PMDUR不同的局部参数)。

在实证分析上,涂云东教授等对从1995年5月到2006年3月的标普500股票价格指数(S&P500)以及季节调整后的房地产市场指数(HMI)的月度数据的相关性进行分析。如下图所示:

大数据预测性分析(这样做大数据分析和预测)(7)

两个时间序列之间似乎具有共同的随机趋势(co-movement),看上去存在相关关系。传统的Johansen检验以及基于模型(1)的t检验都倾向接受相关关系的存在。然而,当使用基于平衡回归模型的推断方法来检验S&P500和HMI之间的相关性时,却会得出两者不相关的结论,这说明S&P500和HMI之间很可能存在虚假回归。

涂云东教授等用相同的方法研究了2003年到2008年的美国石油价格和股票市场指数(NASDQ)之间的关系:

大数据预测性分析(这样做大数据分析和预测)(8)

上图显示了两个时间序列数据在2003年到2008年之间具有共同的随机趋势。以往的研究认为自新世纪开始,股票市场指数和石油价格存在着严重的泡沫,这意味着使用PMDUR过程去刻画这两组数据比较合适,而这可能会导致虚假回归现象的出现。结果显示,基于模型(1)的推断倾向于认为两个序列间具有正相关关系,而基于平衡模型的推断则认为是不相关的,因此有理由相信,NASDQ指数和石油价格之间应该存在着虚假回归现象,即两者不具有相关关系。

03

变系数模型的虚假回归与

半参平衡模型方法的应用

许多实证分析显示在经济数据的建模中仅使用线性协整关系是不够的(Granger, 1991)。因此,近些年来越来越多的文献开始关注针对宏观经济和金融数据的非线性非平稳特性的建模。其中Xiao (2009)考虑了如下变系数协整模型:

变系数协整模型可以视为传统的线性协整模型的拓展,与是由变量驱动的光滑函数,此时协整关系可以随着时间根据协变量光滑地改变。变系数协整模型可以有效刻画协整关系的不稳定性与随机性,同时避免非参估计中的“维度诅咒”问题。关于模型(2)的其他相关理论研究和实证分析,可以参考涂云东教授2019年发表的论文。

然而,现有的关于变系数协整模型的文章以及提出的各种检验方法大多都是在与具有协整关系的假设下进行研究的。从前两节讨论的关于虚假回归的结果可以猜想,当协整关系不存在时,这些检验方法应该会有着截然不同的统计性质。为此,涂云东教授和合作者在2021年发表的文章中研究了基于变系数协整模型(2)的统计推断出现的虚假回归现象。文章发现,类似于Phillips 1986年的结果,当和为互相独立的单位根过程时,传统的非参估计量会收敛到某个随机变量,相应的t统计量会发散,会收敛到某个随机变量,Durbin-Watson统计量会收敛到0。这说明虚假回归现象同样会出现在变系数模型的推断中。

此外,研究中常需要检验回归模型的结构是否会随着时间而发生变化,即是否为常数。通常采用的是Xiao (2009)和Sun et al (2016)提出的两种检验方法。不过,涂云东教授和合作者从理论上证明了这两种检验方法在与相互独立时均会发散,进而会导致假设检验的过度拒绝。因此如果不知道与是否具有协整关系,直接使用这两种检验,会使得虚假的变系数回归关系被错误地接受。

为此,涂云东教授及其合作者提出一种基于半参平衡回归模型的推断方法来解决非线性虚假回归问题。其基本原理便是在回归模型(2)加入自变量和因变量的一阶滞后项。与模型(1)的平衡回归模型不同的是,此时自变量一阶滞后项的系数为关于的函数,因变量一阶滞后项的系数设定为常数。该半参模型的复杂结构设定,给模型的统计推断带来了巨大的挑战。为此,涂云东教授及其合作者创新性地提出了一种对的基于边际积分的估计方法,并从理论上证明了估计量的相合性,以及相应的t统计量渐近服从标准正态分布的性质。此外,文章还证明了基于半参平衡回归模型做上述两种检验,在原假设(为常数)下会收敛到标准分布。

基于半参平衡模型的推断方法突破了大多数检验方法只能在与协整关系存在的假设下进行的限制,这说明该推断方法具有稳健性。同时,因为检验统计量的极限均为标准分布,非常容易应用现有的统计软件进行检验。

在数值模拟中,当与为相互独立的单位根过程时,仿照Granger和Newbold 1974年文章的模拟,涂云东教授等在2021年的文章中应用传统的t检验以及Xiao (2009)和Sun et al (2016)的检验方法去验证是否可以正确接受的原假设。结果显示,基于模型(2)的上述三个检验都会错误拒绝原假设,即虚假回归现象出现。然而基于半参平衡回归模型得到的上述三个检验统计量却可以正确接受原假设,从而支持理论分析的结果。

参考文献

[1] Chen, Y., Tu, Y., 2019. Is stock price correlated with oil price? Spurious regressions with moderately explosive process. Oxf. Bull. Econ. Stat. 81 (5), 1012-1044

[2] Granger, C., 1991. Some recent generalisations of cointegration and the analysis of longrun relationships. In: Engle, R., Granger, C. (Eds.), Long-Run Economic Relationships. Oxford University Press, pp. 277–287.

[3] Granger, C.W.J., Newbold, P., 1974. Spurious regressions in econometrics. J. Econometrics 2 (2), 111–120.

[4] Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, Princeton, N.J.

[5] Lin, Y., Tu, Y., 2019. Robust inference for spurious regressions and cointegrations involving processes moderately deviated from unit root. J. Econometrics 219 (1), 52-65

[6] Phillips, P.C.B., 1986. Understanding spurious regressions in econometrics. J. Econometrics 33 (3), 311-340.

[7] Sun, Y., Cai, Z., Li, Q., 2016. A consistent nonparametric test on semiparametric smooth coefficient models with integrated time series. Econometric Theory 32 (4), 988–1022.

[8] Tu, Y., 2017. On spurious regressions with partial unit root process. Econom. Lett. 150, 142-145

[9] Tu, Y., Wang, Y., 2019. Functional coefficient cointegration models subject to time–varying volatility with an application to the purchasing power parity. Oxf. Bull. Econ. Stat. 8 (6), 1401–1423.

[10] Tu, Y., Wang, Y., 2021. Spurious functional-coefficient regression models and robust inference with marginal integration. J. Econometrics, forthcoming. DOI: https://doi.org/10.1016/j.jeconom.2020.12.010

[11] Xiao, Z., 2009. Functional-coefficient cointegration models. J. Econometrics 152 (2), 81–92.

[12] Zhang, L., 2013. Partial unit root and linear spurious regression: A Monte Carlo simulation study. Econom. Lett. 118, 189–191.

大数据预测性分析(这样做大数据分析和预测)(9)

涂云东

,北京大学光华管理学院商务统计与经济计量系和北京大学统计科学中心联席副教授,研究员。入选北大光华“日出东方”青年人才,教育部“长江学者奖励计划”青年长江学者,两次获评北京大学优秀博士学位论文指导教师。2012年获美国加州大学河滨分校经济学博士学位,同年6月加入北大光华。亚太青年计量经济学者会议(YEAP)发起人和组织者。30余篇学术论文发表在Journal of Econometrics, Econometric Reviews, Journal of Business and Economic Statistics, Oxford Bulletin of Economics and Statisitics,Statistica Sinica,Journal of Empirical Finance,Computational Statistics and Data Analysis,《系统工程理论与实践》,《数理统计与管理》等国际国内知名专业杂志,并为多个专业学术杂志和自然科学基金匿名评审。主持多个自然科学基金项目。理论研究领域涵盖时间序列模型、非参数/半参数计量方法、模型选择和模型平均、大数据建模、金融计量经济学、模型设定检验等;应用研究包含宏观经济预测、价格指数建模、金融市场预测、环境污染预测、新冠肺炎预测等。

大数据预测性分析(这样做大数据分析和预测)(10)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页