`

海外文献推荐(第59期):回测效果如何评估?【天风金工吴先兴团队】

创建于 更新于

摘要

本报告深入解读Harvey和Liu(2015)关于量化策略回测多次检验调整方法,针对因过度数据挖掘导致夏普比率高估问题,提出调整夏普比率的新框架,强调传统50%折扣不合理,折扣与原始夏普比率非线性关系,并介绍多种多次测试修正手段及其经济意义,辅以三种美股多空策略实证说明,指导量化策略评估和风险控制 [page::0][page::1][page::4][page::5][page::6]

速读内容


多次测试导致夏普比率高估问题及调整框架介绍 [page::0][page::1]

  • 多次测试导致夏普比率估计过高,需要基于统计学多重检验理论进行调整。

- 夏普比率与t统计量存在对应关系,可将夏普比率折算为t值进行显著性检验。
  • 通过对多测试p值进行修正,计算调整后夏普比率(HSR),反映真实效应。


多重检验方法及第一类错误控制技术 [page::2][page::3]

  • 介绍FWER和FDR作为第一类错误控制指标。

- 采用Bonferroni、Holm和BHY三种P值修正方法对多次测试结果进行调整,区别在显著性严格度与发现数量上。
  • BHY方法相对宽松,建议优先采用,适合金融领域控制错误发现比例。


三种美股多空策略回测多次测试调整实证分析 [page::4]


| 策略 | 月均收益(%) | 月收益波动(%) | 年化夏普比率 | 单一测试p值 | 多次测试p值 | 调整后夏普比率 | 折扣比例 |
|------|------------|-------------|-------------|------------|------------|----------------|---------|
| E/P | 0.43 | 3.47 | 0.43 | 0.003 | 0.029 | 0.31 | 26.6% |
| MOM | 1.36 | 7.03 | 0.67 | 3.20e-6 | 3.20e-5 | 0.60 | 10.9% |
| BAB | 0.70 | 3.09 | 0.78 | 6.29e-13 | 6.29e-12 | 0.74 | 4.6% |
  • 折扣比例与策略原始夏普比率非线性相关,盈利较弱策略折扣更大,验证了折扣不宜一概而论。


新策略夏普比率修正与最低盈利能力阈值计算 [page::5]

  • 夏普比率折扣随夏普水平及多测试方法变化,低夏普比率策略折扣>50%,高夏普比率约25%折扣。

- 基于样本数量、波动率及测试次数,可计算策略显著性下的最低平均月收益阈值,体现策略识别门槛的提升。

多次测试与样本内外验证的应用建议 [page::3][page::6]

  • 建议结合样本内多次测试与样本外验证,互补解决遗漏发现与过拟合问题。

- 该框架提供了更科学的量化策略回测评价方法,有利降低过拟合风险,提高投资决策质量。

深度阅读

海外文献推荐(第59期)报告详尽分析


一、元数据与概览


  • 标题:海外文献推荐(第59期):回测效果如何评估?

- 作者与发布机构:吴先兴及天风金工团队,报告由天风证券股份有限公司发布,发布日期为2018年10月17日。
  • 研究主题:本报告基于Campbell R. Harvey和Yan Liu发表于2015年的《Backtesting》一文,聚焦于金融量化领域中回测(Backtesting)效果的评估,特别是多次测试(multiple testing)引发的过拟合问题及其调整方法。

- 核心论点与目标
- 量化研究中存在严重的过拟合风险,简单使用原始夏普比率衡量策略优劣可能导致高估其实际有效性。
- 传统经验上将夏普比率预计收益打5折的做法缺乏统计依据,折扣大小应考虑测试次数和统计显著性调整。
- 文献提出基于多次检验统计理论,对夏普比率进行修正,提供更加科学合理的折扣计算方法。
- 该方法有助于科学评估投资策略是否真正具备超额收益能力。

二、逐节深度解读



1. 简介与研究背景



报告开篇指出,现有量化实务通常将策略的回测夏普比率折扣50%以反映样本外表现,但这一折扣是经验法则,缺少统计学依据。Harvey和Liu提出框架基于多次检验理论,针对大量策略同时测试导致的t检验值膨胀问题,重新定义如何确定显著性水平并相应调整夏普比率。

作者通过一个示例说明:单个显著性检验中t值2对应95%置信水平,但若测试100个策略中的最优一个,此时t值门槛应更高,否则错误拒绝原假设概率会大幅提升。折扣值非线性且对于高夏普比率的策略调整较小,对于中低夏普比率的策略调整显著。此结论挑战“统一50%折扣”传统做法,为实务提供新的校正依据。[page::0]

2. 方法论详解



该部分详细构建了方法数学基础:
  • 统计量定义—投资策略收益时间序列对应的t统计量与夏普比率的转换关系,夏普比率定义为均值除以标准差,t统计量为均值标准误差比值。但夏普比率本身与t统计量相差一个因时间长度T的开方。

- 多次测试调整原理—假设有N个策略,研究人员选择报告最大夏普比率策略,单次显著性p值不再有效。多次测试的整体p值$P^M$定义为N个单独p值中最大统计量超过阈值的概率。
  • 以等式形式推导调整夏普比率HSR,确保多次测试p值等于单个检测的p值,从而得到多测试下的可靠夏普比率。


实例演示:对20年月度数据,单测年夏普0.75对应p值0.0008,但假定检验200次调整后p值升至0.15,调整年夏普仅剩0.32,折扣幅度约60%。说明多次测试显著降低了原始夏普比率的置信度。此数量级的折扣远大于通常经验折半的估计。[page::1]

3. 多重测试框架及统计方法



该章节展开详细统计校正方法细节:
  • 错误类型界定:介绍第一类错误(假阳性)的family-wise error rate (FWER)与false discovery proportion (FDP)和它们在多重检验中的测量意义。

- 多重测试p值修正算法:详细介绍Bonferroni(严格)、Holm(稍宽松)和Benjamini-Hochberg-Yekutieli(BHY,控制错误发现率FDR)三种修正方法,并以具体p值样例(6个策略p值)演示修正前后变化。
  • 实际应用难点:指出现实中面临的策略相关性及策略尝试数量信息不可完全观察,使得直接适用统计校正困境,提出使用HLZ模型估计因子收益的基础分布以合理估计实际有效测验数量。

- 与交叉验证方法比较:区分文中统计多重测试框架与Lopez de Prado等人的机器学习样本外交叉验证方法,侧重于控制虚假信号量或计算超越概率,强调本框架利用t统计量调整夏普比率更符合计量经济学的统计方法。
  • 样本内(IS)与样本外(OOS)多次测试辨析:强调纯OOS检验亦无法完全避免过拟合,并存在探索策略后的再测试非严格OOS等限制。最优方法为IS与OOS结合,且使用全样本多次测试判定,避免第二类错误(错过真实有效策略)。[page::2][page::3]


4. 应用示例与策略分析



通过实证检验三种美国股票投资策略:收益-价格比 (E/P)、动量(MOM)及反β策略 (BAB) 对多次测试调整的夏普比率进行评估。数据来自于月度收益,检验次数取不同值(N=10, 50, 100)。
  • 主要数据点及结果解读

- E/P原始年化夏普比率0.43,单一测试显著(p=0.0028),多次测试修正p值上升至0.0285,修正夏普比率为0.31,折扣26.6%。
- MOM策略原始较高年夏普0.67,调整后为0.60,折扣仅10.9%。
- BAB策略表现最佳,年夏普0.78,折扣更小4.6%。
  • 测试量增加时,折扣比例普遍加大,尤其对于较弱策略折扣更明显,如50次测试下的E/P折扣接近50%,强策略折扣低(BAB为7.9%)。

- 这验证了报告开头提出的非线性折扣机制,即高夏普策略受折扣影响较小,而边际策略需警惕严重折扣。

该表明实际投资策略评估中不可简单对折,必须结合回测中多次尝试的统计背景进行折扣修正。[page::4]

5. 新策略夏普比率应用及最低盈利能力



基于海量已发布策略的统计分布,作者进一步探讨新策略经过多重测试后修正夏普比率的计算。
  • 折扣的非线性特征:夏普比率<0.4时折扣常大于50%,超过1.0时折扣约在25%。

- 修正方法选择:推荐使用BHY方法较优,经济学上控制错误发现率更合理,不追求绝对零错误。
  • 计算策略最低月度平均收益率的模型:给出不同样本量和波动率下,考虑多次测试后最小有效收益率阈值表。多重测试要求明显更高的收益水平以达到统计显著(例如240个月样本,10%年波动率情况下,单测收益0.365%,多重测试BHY调整后为0.616%)。

- 实际投资决策含义:通过以上方法,投资者可以依赖统计修正后的夏普比率和最低收益率阈值,更科学地筛选和验证交易策略,避免买入过拟合策略。

总结了调整框架的三步流程(夏普值转t值、确定显著性水平、计算修正夏普比率),进一步强调传统上使用0.5折扣的盲目性。

同时提出该模型是对传统样本外测试的有益补充,尤其在交易策略样本外检验受限或不完全严格时尤为重要。[page::5][page::6]

三、图表深度解读



Table 1:多次测试调整对三种投资策略的影响



该表展现了不同策略(E/P、MOM、BAB)在多次测试下从原始夏普比分(SR)、单测试与多测试p值,到调整后的夏普比率(HSR)及对应折扣率(hc)的细致数据。
  • 趋势

- 测试次数N增大,所有策略的多测试p值均上升,调整夏普比率降低,从而折扣增大。
- BAB作为最强策略,折扣幅度最小(4.6%-9.3%);相反,最低收益E/P折扣最大(26.6%-61.6%)。
- 明确体现多测试环境下过拟合风险对低收益策略的惩罚更严厉,有效抑制伪信号。
  • 统计意义:多测试p值均提升,意味着单纯看单次p值容易误判策略有效性。该表支持本文观点:折扣比例应动态衡量,非固定50%。
  • 方法论联系:该表格数据基于Bonferroni调整方法,与章节多重测试理论匹配,具体反映模型的量化效果。


Table 2:最低盈利能力门槛



此表按年化波动率(5%,10%,15%),不同观测值(样本长度)分组,列出单测试与三种多重测试(Bonferroni、Holm、BHY)条件下策略最小月度收益率门槛。
  • 趋势与发现

- 多重测试显著提高了最小收益阈值,意味着策略需产生更大利润才被认为是显著的。
- 样本越长,最低收益率门槛越低,说明数据量充足有助于识别真实有效策略。
- BHY方法在控制错误发现率方面折扣更温和,实际应用中推荐使用。
  • 统计与实际意义:该表为投资者量化设定策略选取的最低绩效要求,结合样本大小和波动率,可以更科学地判定策略是否具备显著的盈利能力。


图表总结


  • 两表均支持回测中必须考虑多次测试调整的必要性,防止因过多策略尝试带来的假阳性。

- 体现出非线性、策略质量依赖的折扣调整机制。
  • 为实务量化与科学回测提供了可操作的统计工具和标准。


图1:多次测验后夏普比率调整示例

四、估值分析



本报告不涉及公司具体估值模型,而是开发了针对量化策略评估的统计显著性和夏普比率校正框架。其“估值”即为策略性能的调整估计和校准。该方法类似于统计上的调整估计,使策略实际风险调整后收益更贴近样本外真实表现。

主要方法包括:
  • 折算夏普比率为t-statistic进行多次测试p值比较。

- Bonferroni、Holm、Benjamini-Hochberg-Yekutieli三种多重测试修正方法用于调整p值和对应的夏普比率。
  • 计算在多测试考虑下的“修正后夏普比率”、最小月平均收益率门槛。


这些统计工具旨在为量化策略估值及有效性判定提供更加稳健的数学依据,避免单纯依赖传统夏普比率的失真风险。

五、风险因素评估



报告集中讨论的是量化策略回测中的误判风险与统计偏差风险:
  • 数据挖掘过拟合风险:大量策略尝试后选出表现最好者,极易产生样本内“假信号”,而非真实有效策略。

- 多重测试未调整风险:未考虑测试次数直接引用单次显著性检验导致高误识率。
  • 策略之间相关性风险:策略非独立,影响多重测试的有效测试数量,若忽视将错误估计统计显著性。

- 样本外测试不足风险:传统OOS测试存在策略调整干预使其失真等问题,不能完全解决伪信号。

报告明确提出结合统计多重测试调整方法与IS/OOS双重验证策略的建议,降低误判风险,减少错失真实有效策略的可能。

未具体说明缓解策略实现细节,但其提出的系统性多检验调整框架即为风险缓解的关键机制,帮助量化研究者理性选择和验证策略。

六、批判性视角与细微差别


  • 报告依赖正态假设和t检验统计量,对夏普比率的统计分布进行调整,可能在市场极端情况(非正态收益、序列相关性)下存在一定偏差。

- 虽强调三种校正方法均有应用价值,最终推荐BHY方法,但不同校正方法的适用场景和模型假设仍需实务中结合具体策略特点加以判断。
  • 多重测试次数的界定需人工估计且依赖领域知识,数据不足时估计存在不确定,可能影响最终折扣比例。

- 文中反复强调夏普比率未必完全反映风险,多重测试调整只是部分矫正手段,仍需结合其他风险指标和市场背景进行综合判断。
  • 建议结合IS/OOS兼顾方法有助综合评估,但具体权衡标准缺少明晰量化指标,实操上或存在判断难度。

- 报告以统计模型为核心,较少涉及机器学习等现代技术可能带来的进一步挑战,但已对比并说明这种差异。

总体而言,报告以严谨统计方法为基础,理论清晰,实证丰富,但对非独立收益流程和非线性风险度量等方面有待后续扩展。

七、结论性综合



本期天风金工团队报告解读了Harvey和Liu关于量化策略回测多重测试过拟合问题的学术成果,从理论与实证两个维度阐述了多次检验背景下调整夏普比率的必要性和具体计算方法。

报告核心洞见包括:
  • 多重测试显著抬高了策略表现的p值,必须调整夏普比率以反映真实统计显著程度。

- 折扣率非线性且依赖原始夏普比率和测试次数,高夏普策略折扣较轻,低表现策略需大幅折扣。
  • 通过Bonferroni、Holm、BHY三种多重测试校正方法,对策略性能做出理性调整。

- 实证应用于三大经典美国股票策略,验证了理论模型的实际意义,量化折扣效果。
  • 提出策略最低盈利门槛的计算方法,帮助投资者设定有效的策略筛选标准。

- 强调统计多重测试调整与样本内外双重检验结合的重要性,点出传统实践中多数简单折半估计的不足。

规则化的统计校正机制为量化策略评估提供了坚实的理论支撑和实证依据,有助于限制过拟合风险,提升投资决策的科学性和有效性。图表数据详细展现了调整机制的具体影响,体现了回测结果向更稳健、可信结果转型的路径。

最终,报告明确传达:在进行量化策略回测时,不应盲目依赖未调整的夏普比率,应积极采用多重检验统计框架校正,以防止因过度挖掘历史数据而导致策略表现的高估。这为量化投资实践与学术研究提供了有力的指导工具和改进思路。[page::0,1,2,3,4,5,6]

---

报告风险提示:报告基于相关文献内容,不构成具体投资建议,需结合个人风险承受能力和市场环境使用。

分析师联系方式及证书信息见报告末尾二维码及说明页。[page::8]

报告