An Exploration to the Correlation Structure and Clustering of Macroeconomic Variables
创建于 更新于
摘要
本文采用基于主成分分析和余弦相似度的无监督聚类方法,系统刻画并量化宏观经济变量(MEVs)的相关结构。通过对2000至2022年的数据滚动窗口聚类发现,在金融危机及疫情等压力情景下,MEVs聚类数显著减少,反映变量间同步度增加。此外,聚类数在CCAR压力测试假设场景中表现一致,揭示了MEVs相关结构动态变化的定量特征,为金融模型变量选择及风险管理提供了新视角和工具 [page::0][page::11][page::12][page::14]。
速读内容
- 研究背景及意义 [page::0][page::1][page::3]:
- 宏观经济变量(MEVs)如GDP、通胀率、失业率等,是银行资产组合管理和压力测试关键输入。
- MEVs具有高维度、多重共线性,传统模型面临变量选择难题,且变量间相关结构动态变化尤为复杂。
- 聚类算法设计与实现 [page::4][page::5][page::6][page::7][page::8][page::9]:
- 使用基于主成分分析(PCA)和余弦相似度的无监督二元划分聚类法,通过迭代计算每一聚类的前两主成分,将变量分配到匹配最大平方余弦相似度的聚类。
- 聚类过程中设置重新分配机制(reassignment search)优化聚类归属,停止条件包括样本量阈值和二主成分方差比率阈值($\lambda_2 < 1$)。


- 应用示例及聚类结果分析 [page::10][page::11][page::12][page::13]:
- 对44个关键MEVs的132个变换值,以两年滚动窗口(24个月)聚类,发现2007-2010年全球金融危机和2020-2021年疫情期,聚类数从典型20余个跌至最低15个,表明变量之间更为同步。
- 在CCAR压力测试假设场景中,Baseline情形聚类数约21,对应平均经济状态;Severely Adverse情形聚类数15,贴近危机年份表现。

| 假设场景 | 聚类数 |
|--------------|-------|
| FRB Baseline | 21 |
| FRB Severely Adverse | 15 |
- 同样的趋势在CCAR2022场景也得到验证,显示聚类数能反映宏观经济压力的相关结构变化。
- 聚类数作为MEVs相关结构的定量指标 [page::13][page::14]:
- 合理解释为压力状态下MEVs呈现更强同步性和更紧密相关结构,导致聚类数减少。
- 该指标简洁明了,有助于理解宏观经济变量行为模式的转变,但仅作为聚类丰富度的量化参考,不完全说明构成细节。
- 研究贡献与未来展望 [page::14]:
- 提供了一套高效的无监督学习工具,量化和可视化宏观经济变量间复杂相关结构,为银行风险管理与模型开发提供方法支持。
- 鼓励跨领域研究者应用该方法拓展宏观经济变量分析的新视野并完善变量筛选和组合构建。
深度阅读
详细分析报告:《An Exploration to the Correlation Structure and Clustering of Macroeconomic Variables》
---
1. 元数据与概览(引言与报告概览)
报告标题:
An Exploration to the Correlation Structure and Clustering of Macroeconomic Variables
作者及机构:
Garvit Arora、Shubhangi Tiwari(印度孟买JPMorgan Chase & Co.)、Ying Wu、Xuan Mei(美国泽西市JPMorgan Chase & Co.)
发布时间及主题:
近期研究论文,聚焦宏观经济变量(MEVs)的相关性结构分析及聚类方法,应用于金融(银行)风险管理和压力测试场景中。
核心论点及目标:
- 通过一种基于主成分分析(PCA)和余弦相似度的无监督聚类算法,为宏观经济变量构建清晰的相关性结构表征。
- 该方法能够量化不同时期(尤其2000至2022年)及不同宏观经济情景下,MEVs的相关性和聚类分布差异。
- 研究发现经济“好转”时期(平稳期),MEVs的聚类数较多,表现为多样化的走势模式;而在经济压力如金融危机(GFC)或COVID-19冲击期间,聚类数目减少,体现出变量的高度同步及相关性增强。
- 以CCAR(美国联邦储备银行压力测试)假设情景为例,验证该聚类方法在真实和假设情景下均适用且灵敏。
- 旨在为银行风险管理及宏观经济研究者提供创新的量化手段,以更好的理解和应用MEVs的结构特征。
----
2. 逐节深度解读
2.1 引言(Introduction)
关键内容总结:
- 宏观经济变量(如GDP、通胀、失业率、利率等)是金融机构风险模型的重要输入。
- 存在高维特征和多重共线性问题,且数据点相对较少,容易导致模型过拟合和指标选择偏误。
- 现有技术(随机森林、梯度提升树、Lasso、Elastic Net等)只能部分缓解上述问题,仍难以可靠识别因果变量。
- 提倡采用无监督且基于相关性的降维技术(如PCA),提高模型的稳定性和适应不同组合资产及投资组合的通用性。
- 经济建模中对“优选”变量(更具经济意义或业务相关)进行替换需依据聚类近邻主导规则,提示理解MEVs间的相关结构极为重要。
- 当前COVID-19及高通胀背景加剧了宏观变量相关结构的变化,缺乏量化与可视化工具,亟待研究。
推理依据和论证:
- 统计文献引用表明,高维数据下常规变量选择方法易带偏差。
- 使用无监督方法,尤其是基于相关性,能避免标签依赖导致的偏差,也保证结果跨场景的适用性。
- 关联经济学事实,经济压力时期MEVs趋向同步化,说明变量组合的聚类结构发生产生本质变化。
---
2.2 聚类方法论(Section 2)
2.2.1 余弦相似度(Cosine Similarity)
- 定义两向量夹角θ的余弦值,范围[-1,1],值越接近1表示两个向量越相似。
- 与Pearson相关系数等价,当向量居中(去均值)时,余弦相似度等于样本相关系数。
- 进一步引入平方余弦与回归中决定系数(R²)的关系,突出其统计含义。
技术意义: 余弦相似度用以度量变量间的相关程度,是构建聚类的自然距离度量,比欧氏距离更适合高维且相关性的分析。
2.2.2 主成分分析(PCA)
- PCA为经典的降维技术,提取原始变量的线性组合,最大化方差且互不相关。
- 具体构造方法为求解样本协方差矩阵的特征值及特征向量。
- 结果提供新的正交基,便于解释多变量关系及进行后续聚类。
- 对数据进行标准化(零均值单位方差)确保各特征均等贡献。
方法优点: 很好压缩信息,且不依赖标签,适合无监督聚类。
2.2.3 聚类算法实现
- 采用基于PCA主成分与向量余弦相似度的二分法迭代聚类。
- 具体步骤:
- 计算所有变量第一、二主成分;
- 根据变量与这两个主成分的余弦相似度平方赋值到聚类;
- 对新聚类内重复上述过程,精细划分;
- 加入对变量重新分配过程,防止变量错分,提高聚类准确度。
- 结束准则包括:
- 设定每簇最少元素数;
- 第一主成分解释度阈值(例如第二主成分占比λ2/λ1低于某值);
- 簇的最大数限制。
- 该算法呈现类似决策树的分裂逻辑,具备一定自适应性和稳定性。
---
2.3 MEVs聚类的应用及示例(Section 3)
- 将该算法应用于JPMorgan内部相关组合资产数据,实现了难点1(高维降维多并行)和难点2(优选变量替换)的自动化与简便化。
- 举例:针对美国商业房地产价格指数,共1600个变量(400个都市区 * 4 房产类型)季度数据,应用多种差分变换后聚类,成功识别市场分组与趋势模式,如涨跌趋势、周期性、波动性地区。
- 最重要的应用,是对宏观变量相关结构随时间变化的量化与可视化。
- 选取44个关键美国宏观变量,经过三种差分转化形成132个特征集合。
- 采用两年滚动窗口(如2003-2004、2004-2005等,至2021-2022年)的方式分批聚类,生成每窗口内的聚类数目作为MEV相关结构的定量指标。
关键发现及数据点:
- 不同年份的聚类数目体现经济状态,平稳期聚类多(约20个左右),经济压力期聚类显著减少(最低至约15个)。
- 2007-2010年全球金融危机、2020-2021年疫情期为聚类数目最小的两个阶段,指示宏观变量高度同步。
- 2023年CCAR压力测试内假设情景(Baseline和Severely Adverse)分别对应大致21和15个聚类,呼应历史良好期和危机期的映射。
- 2022年CCAR情景聚类数较2023年少2,推测与当年经济前景悲观程度有关。
---
2.4 图表深度解读
图1(页面4):余弦相似度示意图
- 说明余弦相似度的几何定义,即两个向量夹角的余弦值,标明向量夹角θ和对应的余弦值。
- 该图援助理解数学定义与物理意义,强调相似度量的直观形象。
图2(页面6):主成分聚类的二分示例
- 展示对9个变量向量计算第一、第二主成分后,根据与PC1、PC2的余弦相似度进行聚类的过程。
- 说明如何通过计算每个变量与两主成分的相关度,归为相关性更高的类别。
- 体现出主成分导向的群集划分方法的直观操作。
图3(页面7):迭代二分聚类示例
- 详示后续在初步聚类基础上,对聚类子集继续分裂,计算新主成分并再次通过余弦相似度划分变量的流程。
- 该图关键显示“迭代细分”,强化聚类的多层次递进性。
图4(页面12):2003-2022两年滚动窗口聚类数目柱状图
- 横轴为两年期窗口起始年份,纵轴为该窗口的MEV聚类数。
- 蓝色表示不同年份的聚类数,红色标示全球金融危机(2007-2008)和疫情期(2020-2021),分别为15个聚类极小值,明显低于平均20.6。
- 该图直观展示了经济压力期变量相关性增加,结构单一化。
---
2.5 估值分析(本报告无涉及)
- 本文为方法探索及应用研究,不涉及公司估值或财务预测部分。
---
2.6 风险因素评估
- 报告未具体列明风险因素,但方法应用中的潜在局限体现为:
- 聚类数目作为衡量宏观变量相关结构的指标虽简洁,但可能过度简化,忽略了聚类成员的具体构成变化。
- 统计假设依赖数据的稳定性及变换方法,不同的差分或窗口参数可能带来结果差异。
- 聚类稳定性和重复性需多次检验,非本篇具体细节内容。
---
2.7 批判性视角与细微差别
- 优点: 报告逻辑清晰,方法创新,利用了缺乏深入讨论的MEVs相关结构,结合机器学习与经典统计的融合,提供实用的聚类量化视角。
- 限制:
- 聚类结果的经济解释有待进一步丰富(如各聚类经济含义、变量内在机制分析稍显不足)。
- 报告聚焦多个静态窗口,动态因果推断未涵盖。
- 对于样本选择、变换类型、聚类停止条件等参数灵敏度分析较少。
- 只提供了单一量化指标(聚类数),忽略了群内内部多样性或群间距离等更复杂度量。
- 细微之处:
- CCAR不同版本聚类差异的经济解读虽合理,却仍是基于外推推测,缺少更深入数据验证。
- 该方法主要针对银行资产组合管理,其他领域可能需要调整。
---
3. 结论性综合
本报告深入探讨了宏观经济变量在不同时期和不同经济环境下的相关性结构,通过引入一种基于主成分分析和余弦相似度的无监督聚类算法,以科学、数据驱动的方式量化MEVs群体结构和演变。
核心发现包括:
- 经济平稳期间,MEVs聚类数较多,表现为变量之间的多样性和分散性高;压力年份(GFC与COVID-19)聚类数目显著减少,指示变量的同步性和相关性增强。
- 面向未来的银行压力测试场景(CCAR2022和2023)中,聚类结果反映了FRB对经济状态和危机程度的预期,验证聚类方法的有效性和灵敏度。
- 聚类数目作为复杂MEV相关结构的定量简约表征,为风险管理者提供直观、易解释的指标,同时辅以更详细的聚类成员分析,可提升金融模型的稳定性和预测能力。
图表与数据深入描绘了MEV聚类具体执行流程(图2、3)、统计意义(图1)、以及关键时间窗口中变量结构变化(图4),为读者提供了技术理解和实践应用的双重支撑。
报告强调了无监督聚类在金融宏观经济变量分析中的潜在广泛用途,开创了一种严谨且可扩展的研究范式,对于风险管理、资产配置及宏观经济预测均具备重要价值,期待后续研究在更丰富数据和模型层面进行拓展和验证。[page::0,1,3,4,6,7,11,12,13,14]
---
附:主要图表示意
图1:余弦相似度定义示意

图2:基于主成分的二分聚类示例

图3:迭代式二分聚类示例

图4:2003-2022年两年滚动窗口MEV聚类数目

---
综上,报告在介绍方法、应用示例及结果解释方面全面详实,结合国内外银行实际需求,提供了一种创新且实用的宏观变量相关结构量化手段,具备推广价值和参考意义。