量化如何追求模糊的正确:有序回归
创建于 更新于
摘要
本报告系统介绍有序回归损失函数的原理及其在多因子选股中的应用价值,强调相比传统的分类和回归方法,有序回归融合两者优点,追求“模糊的正确”以提升投资决策质量。[page::0][page::2][page::20]。实证采用周频中证500指数增强模型,基于全连接神经网络和残差图注意力网络两种基模型,logistic有序回归损失函数显著提升Rank IC、多空收益及年化超额收益,且与加权MSE集成后表现进一步增强,信息比率优势明显[page::0][page::3][page::12][page::20]。此外,研究通过参数敏感性测试指出,logistic损失优于exponential和hinge,加权方式和分类数对效果影响有限,预测值集成优于组合权重集成,证明集成方法有效提升模型稳定性与收益表现[page::8][page::13][page::14][page::20]。
速读内容
- 分类与回归任务在选股中的局限:分类弃用顺序和距离信息,回归对异常值敏感且易出现“精确的错误”现象,即预测误差虽小但方向错误[page::0][page::2]。

- 有序回归理论框架:将K分类问题分解为K-1个二分类任务,累加对应二分类逻辑损失函数,能够兼顾类别顺序及估计连续收益率的性质,核心损失函数支持logistic、exponential、hinge等多类形式[page::4][page::5]。

- 有序回归损失函数特点:相比均方误差(MSE)损失,更加平滑且对“模糊区域”的预测不会严厉惩罚,体现“模糊的正确”理念,有助于减少金融噪声影响[page::7]。


- 量化模型应用及网络架构:
- 使用全连接神经网络(nn)和残差图注意力网络(gatres)两类深度学习模型进行收益预测。
- 输入Alpha42基本面及量价因子,搭配网络的多层全连接及自注意力模块,构造选股模型[page::9]。


- 有序回归在中证500周频增强模型中的实证表现(一):
- 基于nn模型,logistic有序回归损失函数在Rank IC、多空收益以及年化超额收益方面显著优于加权MSE。
- 集成有序回归与wmse的预测结果后,年化超额收益由14.15%提升至15.98%,信息比率由2.38提升至2.76。

- 有序回归在中证500周频增强模型中的实证表现(二):
- 基于gatres模型,logistic有序回归提升Rank IC与多空收益,年化超额收益及信息比率提升幅度较小。
- 集成模型显著提升整体性能,凸显模型多样化的重要性。


- 损失函数效果比较:logistic > wmse > hinge ≈ exponential,logistic损失函数既保留模型性能,又缓解异常值影响,故为首选[page::13].

- 参数敏感性测试:
- 加权方式对表现影响不大,样本加权、类别加权及样本-类别加权均优于基线。
- 分类数量10向为性能最佳,兼顾计算效率。
- 预测值集成优于组合权重集成,因预测值集成能更好结合模型信息,提升收益表现。



- 子模型相关性及集成优势:
- 基于nn模型的有序回归与wmse预测值相关度超过0.95,gat_res模型约为0.83。
- 不同损失函数模型间组合日度超额收益相关度较基线低,集成后进一步提升性能。
- 有序回归集成模型相较单独wmse集成模型表现显著更优,集成效果来源于不同损失函数带来的模型差异而非随机初值差异。


- 有序回归优势与传统多分类比较:
- 传统多分类无法保留标签的顺序和距离信息。
- 有序回归在保留顺序的同时对噪声更具容忍度,适合金融领域噪声较大、数据连续性的特点[page::19]。
- 结论:
- 有序回归结合分类和回归优势,追求“模糊的正确”,有效缓解金融数据信噪比低的问题。
- 在中证500周频增强模型内,采用logistic有序回归损失函数,结合深度学习基模型,能够稳定提升因子质量及投资组合绩效。
- 结合多种损失函数集成预测进一步强化表现,参数设置建议采用logistic损失、10分类、样本加权及预测值集成方案[page::20]。
深度阅读
金融研究报告详尽分析报告
报告标题: 量化如何追求模糊的正确:有序回归
发布机构: 华泰证券股份有限公司华泰研究
发布日期: 2022年10月11日
研究主题: 基于机器学习中的有序回归损失函数方法,优化多因子选股模型(中证500指数增强模型)的性能与超额收益表现
---
一、元数据与概览
本报告是华泰研究所于2022年10月发布的深度研究报告,主题围绕机器学习中的有序回归损失函数在多因子选股模型中的应用与表现。作者为林晓明、李子钰、何康博士,皆为资深的金融研究和量化模型专家。
核心论点:
- 选股过程中传统分类与回归方法各有不足,分类损失顺序及距离信息,回归对异常值过度敏感且可能缺失投资方向意义。
- 有序回归结合了分类和回归的优点,追求“模糊的正确”,即在保留距离和顺序信息的同时,更符合投资实践需求。
- 通过周频中证500指数增强模型的实证测试,logistic形式的有序回归损失函数在Rank IC、超额收益和信息比率等关键指标上,整体优于传统的加权均方误差(wmse)损失函数。
- 模型融合(集成)有序回归与wmse预测结果进一步显著提升选股模型表现。
- 报告细致测试了不同损失函数形式、加权方式、分类数量和集成方法,全面验证参数敏感性。
该研究希望传达的主要信息是:应用机器学习中的有序回归损失函数可有效提高量化选股模型的实际投资收益与风险调整表现,是选股技术进阶的一个重要路径[page::0, 2, 3, 20]。
---
二、逐节深度解读
2.1 导读与研究背景
报告开头指出,传统机器学习在选股上多采用分类(“涨”“跌”)或回归(预测连续收益)任务,但各有其固有限制:
- 分类将连续收益转化为离散类别,丢失收益的顺序和距离信息,导致模型优化目标与投资的连续性不符;
- 回归虽然预测连续变量,但对异常值极度敏感且难以区分方向错误(预测涨却跌)的投资风险,有时“精确的错误”优于“模糊的正确”。
图表1对比了两次等误差但方向截然不同的预测,强调回归忽略方向性差异的弊端。报告首次提出有序回归作为解决方案,其核心思想是在保留顺序信息的同时兼顾投资含义[page::2]。
2.2 有序回归原理
有序回归是对传统二分类逻辑回归的扩展,将K分类问题拆解成K-1个二分类子任务,并将对应的损失函数求和,结合了分类的易于优化与回归的连续性特点。
数学表达式详述了有序回归损失函数的构造:
\[
loss(f;x,y) = \sum{k=1}^{K-1} h(sgn(y-ck)(f(x)-ck))
\]
其中,$y$为真实值,$ck$为分类阈值,$f(x)$为模型输出,$h$为二分类损失函数(如logistic)。这种结构有效保留了顺序关系和类别间的距离[page::2, 4, 5]。
2.2.1 具体二分类逻辑回归回顾
报告详细介绍了二分类逻辑回归的基本原理,包括:
- Sigmoid函数将模型输出映射为概率,阈值判断类别,
- 交叉熵损失函数(logistic损失)用于衡量预测概率与真实标签间的差异,
- 通过最大似然估计推导该损失,方便基于梯度下降的优化算法使用[page::4]。
2.2.2 多分类有序回归的扩展
从二分类阈值0推广到多个阈值$c1, c2, ..., c{K-1}$,结构化损失函数可保持每类间的次序。报告通过多个图表展示概率密度函数和累积分布函数的形状,辅助理解概率估计过程[page::5]。
2.3 常用损失函数的有序回归形式
结合常见的二分类损失(0-1、logistic、exponential、hinge等),报告分析了各自的数学表达式及特点,分别衬托了它们对异常值的敏感度、可导性及优化便利性。报告中图表展示了损失函数曲线,体现了logistic相对平滑和稳定的优势,exponential对大误差的高度惩罚以及hinge的不可导问题[page::6]。
扩展到有序回归场景时,这些损失函数叠加呈现更平滑的损失形态,体现“模糊的正确”理念。相比MSE,有序回归损失在预测值在一定范围内不轻易惩罚,容忍微小偏差,减少噪音过拟合,特别是在金融数据噪声极高的情况下效果突出[page::7]。
2.4 方法设计
以周频中证500指数增强模型为基础,将原有加权MSE损失替换为不同形式的有序回归损失,基模型采用全连接神经网络(nn)和残差图注意力网络(gatres)两种神经网络架构。参数设计包括:
- 分类阈值采用截面分位数,主要5类,亦对10类、20类的效果进行了比较;
- 加权策略包括样本加权、类别加权以及两者乘积,侧重给截面收益高的股票授予更大权重;
- 集成策略包括对子模型预测值求均值后组合优化(预测值集成),以及对子模型组合等权再平衡(组合集成)两种方式。
网络结构图表清晰展示了基模型输入、层级及输出设计,因子池涵盖42个经典基本面和量价因子[page::8, 9, 10, 11]。
2.5 实证结果
基模型为全连接神经网络 (nn)
- Logistic有序回归损失在Rank IC、信息比率、年化超额收益等关键指标上均优于加权MSE损失。
- 有序回归损失中的logistic形式显著优于exponential和hinge损失,后两者对异常值敏感导致表现不佳。
- 加权方式方面,样本加权、类别加权和两者乘积表现差异不明显,均优于wmse基线。
- 分类数量为10类时效果最佳,5类稍弱,20类稍好但计算开销大。
- 预测值集成效果优于组合集成,两者均优于单一基线模型。
- 集成模型年化超额收益由基线的14.15%提高至约15.98%,信息比率从2.38提升至2.76,表现稳健且提升显著[page::12, 13, 14]。
基模型为残差图注意力网络 (gatres)
- Logistic有序回归损失仍能提升Rank IC和多空收益,但指增组合的年化超额收益和信息比率改善不明显。
- 集成模型同样表现优于单一基线,年化超额收益由15.33%提升至16.30%,信息比率由2.60提升至2.69。
- 加权及集成策略的表现与nn基模型类似,预测值集成优于组合集成但差异较小[page::15, 16]。
2.6 讨论
报告讨论了有序回归与本金加权wmse的相关性,指出预测值相关度中高(nn约0.95,gatres约0.83),超额收益相关系数也在0.7-0.9区间,两者模型之间存在差异性,有利于模型集成提升表现。
有序回归的优势在于:
- 对金融噪声具有较好容忍度,避免MSE的“精准错误”,更符合投资实际。
- 集成效果提升主要因多样性和有序回归模型本身带来的更鲁棒优化,而非随机种子差异所致。
- 传统多分类任务未能保留充分的顺序和距离信息;而有序回归既保留了扩展的序信息,又比纯回归方法减少异常值冲击[page::17 - 19]。
---
三、图表深度解读
图表解析示例
有序回归超额收益表现(基模型为nn & gatres)
- 图表3、4展示了2011年初至2022年9月期间有序回归集成模型(ensembleprediction)和基线wmse模型的累计超额收益与最大回撤。
- 红色曲线(ensembleprediction)明显高于蓝色(wmse),显示使用有序回归损失函数带来的长期收益积累能力提升。
- 粉色和浅蓝色柱形图表现最大回撤,反映了有序回归集成模型的风险控制能力较好。
- 两个基模型结构均表现出有序回归带来的稳定超额收益提升,验证方法的有效性。


多分类有序回归概率密度函数与累积分布函数(图7、8)
- 展现了在多分类情况下模型如何将连续输出转化为各阶梯分类概率,形象说明了概率划分的逻辑。
- 图形中分类阈值分隔密度函数和累积函数,直观显示止损边界和类别转变点的区间划分,有助于理解序贯分类过程中模型的决策倾向。


二分类及有序回归损失函数形态(图9、10、11)
- 这些图表细致比较了经典二分类损失函数及其有序回归版本的形态,正式验证了有序回归损失较MSE更平滑、对预测近邻结果无过度惩罚的特点。
- 图10与图11分别在不同标签值下展示了损失函数相对mse的优势,支撑了“模糊的正确”理论基础。



各种损失函数与加权方式下超额收益表现(图19、20)
- 直接比较损失函数,logistic损失表现最优,exponential对异常值敏感表现最差。
- 加权方式差异不大,均优于基线,表明加权策略在有序回归中存在一定弹性。


模型集成方式表现比较(图22、26)
- 预测值集成整体优于组合集成和单模型,反映了集成预测结果在提升多样性和降低风险上的优势。
- 集成的优势对两类神经网络结构模型均成立,具有一定方法普适性。


有序回归与wmse相关性及优势稳定性(图27-32)
- 子模型之间预测值和超额收益的中高相关性说明两者存在一定相似度,但其差异带来集成多样性。
- 收益和Rank IC提升的累积差分图显示,nn基模型下有序回归表现更稳定突出,gatres则主要通过集成得到提升,表明模型结构对有序回归效果有一定影响。




有序回归集成与wmse集成绩效对比(图34、35)
- 明确排除了集成本身带来的提升,仅有有序回归集成模型在年化超额收益及信息比率上表现超越基线和随机种子下的wmse集成模型,进一步印证了有序回归损失的独特优势。

---
四、估值分析
本报告主要聚焦于模型表现和选股策略层面,没有涉及具体财务估值模型(如DCF、市盈率倍数等),因此估值分析不适用。
---
五、风险因素评估
报告在风险提示部分指出几点关键风险:
- 人工智能技术基于历史数据,市场未来规律可能变化导致模型失效(模型的时效性和适应性风险);
- 深度学习模型存在过拟合风险,尤其是对随机数初始化较敏感,本研究未进行随机数敏感性测试;
- 高频调仓假设以vwap成交,忽略了真实交易成本及滑点等市场冲击因素,实际执行存在偏差风险;
- 有序回归通过平滑损失追求“模糊正确”,但也可能对某些极端行情响应不足(模型反应速度风险)。
整体风险提示比较充分,表明作者对模型限制有清醒认知并公示以示投资者注意[page::0, 20]。
---
六、批判性视角与细微差别
- 模型依赖性与随机性: 报告未进行随机数敏感性测试提示模型结果仍受初始化随机影响,实际应用中稳定性需进一步验证;
- 交易成本忽略: 虽假设以vwap成交忽略实盘交易成本,调仓频率高可能对策略净收益影响较大,报告未给出对交易成本敏感性分析;
- 模型结构效果差异: nn与gatres模型对有序回归损失的表现存在差异,gatres下有序回归在实际组合年化收益提升有限,说明不同架构对该方法的适配性需更细致研究;
- 复杂度与计算成本: 10分类在性能和时间成本间权衡较优,但较大类别数量(20)计算开销显著提升,未深入给出实际时间与资源消耗,需投资者谨慎考虑部署成本。
- 潜在数据偏差风险: 以截面分位数为分类阈值易随市场环境变动,极端市场行情可能导致类别划分不稳定,报告未深谈这方面稳定性[page::14, 20]。
---
七、结论性综合
本报告系统介绍并验证了机器学习中的有序回归损失函数在多因子量化选股场景中的应用及优势。相比传统分类和回归,报告强调有序回归通过兼顾收益的顺序和距离信息,体现“模糊的正确”理念,有利于减轻异常值带来的负面影响及过拟合风险。
基于周频中证500增强模型的丰富实证测试表明:
- Logistic有序回归损失函数在提升模型的Rank IC指标、多空收益、年化超额收益和信息比率均表现优异;
- 基于全连接神经网络和残差图注意力网络的不同架构研究均支持核心结论;
- 通过与传统加权均方误差模型的集成,策略整体收益与风险调整指标获得实质提升,证明模型创新的有效性和稳定性;
- 参数敏感性分析(损失函数类型、加权方式、分类数量、集成方式)揭示logistic损失、样本权重、10分类及预测值集成的组合在效果和计算效率上属于均衡最优选择;
- 集成策略能充分利用不同模型间的高相关但不完全相同的预测能力,进一步稳定投资表现。
图表充分配合文字,数据清晰展现长期累计超额收益、最大回撤、Rank IC提升及模型预测相关度,形成逻辑闭环支撑研究结论。
同时,报告对模型风险进行了诚恳披露,包括历史规律失效风险、过拟合可能性、调仓频率偏高及交易假设理想化等,提示投资者合理评估模型有效性范围。
总结而言,本报告不仅创新性地将有序回归理念引入量化选股,而且在多个步骤详细验证其优越性,为量化投资领域提供了具有理论与实践兼备的先进方法论,是对于机器学习选股方法的重要贡献[page::0-3, 20]。
---
参考文献
Rennie, J., & Srebro, N. (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels. IJCAI.
---
(全文引用页码见每段末尾
[page::X]
,含图表引用)