选股因子系列研究(五十九)——基于逐笔成交数据的高频因子梳理
创建于 更新于
摘要
本报告系统梳理了基于逐笔成交数据挖掘的多种高频选股因子,分析其月度选股能力、指数范围影响及调仓频率变化对因子表现的影响。结果显示,除买单集中度外各因子年化ICIR均超2.0,且多因子在不同指数范围及调仓频率下表现稳定。此外,因子引入显著提升中证500指数增强组合的超额收益,尤其买单集中度提升年化超额收益至21.5%。风险主要包括市场系统性风险和流动性风险等[page::0][page::5][page::6][page::7][page::8][page::9][page::11]
速读内容
- 逐笔因子涵盖大买成交金额占比、买单集中度、盘中主买占比、开盘后日内净主买强度、开盘后知情主卖占比及尾盘知情主买占比等6类指标[page::4]
- 正交前买单集中度月均IC最高达0.07,月度多空收益达2.32%;正交后各因子月均IC均在0.03~0.04,年化ICIR除买单集中度外均超过2,不同因子表现稳定
- 各因子正交前后分10组月度超额收益趋势图:


- 因子多头效应明显,尤其大买成交金额占比和开盘后日内净主买强度,年化多空收益分别为18.5%、15.1%,月均溢价分别达0.40%、0.28%
| 因子名称 | 年化多空收益 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 截至2020.01.23 |
|----------------------|------------|------|-------|------|------|------|------|----------------|
| 大买成交金额占比 | 18.5% | 22.1%| 46.0% |14.0% |17.8% | 8.0% |15.6% | 0.5% |
| 买单集中度 | 15.8% | 2.2% | 59.0% |26.3% | 4.9% |10.7% | 3.2% | 0.5% |
| 盘中主买占比(占全天成交)| 11.3% |14.4% |-13.8% | 9.3% |16.4% |10.9% |18.1% | 0.6% |
| 开盘后日内净主买强度 | 15.1% |10.2% | 30.8% |14.8% |11.7% |10.6% |16.3% | 0.4% |
| 开盘后知情主卖占比(占同时段成交)| 12.6% |16.5% | 28.3% |14.2% |13.1% | 4.3% | 7.4% | -0.3% |
| 尾盘知情主买占比(占全天成交) | 14.0% | 8.2% | 51.2% |13.1% |10.6% | 7.0% | 7.1% | 0.7% |
- 因子年度多空收益与月均溢价展示[page::6]
| 因子名称 | 月均溢价 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 截至2020.01.23 |
|----------------------|---------|------|-------|------|------|------|------|----------------|
| 大买成交金额占比 | 0.40% |0.42% |0.63% |0.39% |0.54% |0.21% |0.25% | 0.23% |
| 买单集中度 | 0.21% |0.11% |0.59% |0.48% |-0.06%|0.25% |-0.14%| 0.39% |
| 盘中主买占比(占全天成交)| 0.20% |0.27% |-0.12% |0.12% |0.45% |0.32% |0.22% | 0.01% |
| 开盘后日内净主买强度 | 0.28% |0.24% |0.30% |0.28% |0.39% |0.22% |0.23% | 0.22% |
| 开盘后知情主卖占比(占同时段成交)| 0.22% |0.28% |0.26% |0.28% |0.27% |0.15% |0.15% | -0.24% |
| 尾盘知情主买占比(占全天成交) | 0.33% |0.21% |0.75% |0.30% |0.21% |0.20% |0.32% | 0.10% |
- 在不同指数范围内,逐笔因子选股能力表现分化:中证800指数中大买成交金额占比、盘中主买占比及尾盘知情主买占比表现优异;中证500指数内除大买成交金额占比外,其他因子表现减弱;沪深300指数内大买成交金额占比和盘中主买占比表现较好[page::7]
- 不同调仓频率下的因子表现:
- 从月度提升到半月度,因子ICIR及年化多空收益提升明显,多头效应改善;
- 从半月度提升至周度,只有大买成交金额占比和尾盘知情主买占比继续提升,其它因子多空收益反而略有降低
- 逐笔因子与常规低频因子的相关性较低,但大买成交金额占比与市值、估值、前期涨幅等存在一定相关性;正交后部分逐笔因子间仍有一定相关性,如开盘后日内净主买强度与开盘后知情主卖占比相关度达0.47[page::8][page::9]
- 因子应用示例:以中证500指数增强组合为例,加入买单集中度后年化超额收益由18.7%提升至21.5%;开盘后日内净主买强度加入亦带来显著提升
- 部分因子如大买成交金额占比和盘中主买占比未对组合整体表现带来明显改善[page::9][page::10][page::11]
- 在基础模型已包含分钟高频因子的前提下,逐笔因子仍有提升空间,加入开盘后日内净主买强度使得组合年化超额收益进一步提升至21.5%


- 风险提示包括市场系统性风险、资产流动性风险及政策变动风险[page::0][page::11]
深度阅读
金融研究报告详尽分析报告
---
一、元数据与概览
报告标题: 选股因子系列研究(五十九)——基于逐笔成交数据的高频因子梳理
分析师: 冯佳睿、袁林青
发布机构: 海通证券研究所
发布日期: 2020年2月12日
研究主题: 本报告属于海通证券“选股因子系列研究”之第59期,聚焦于基于逐笔成交数据挖掘选股因子,目的在于梳理和整合之前几期报告筛选出的有效逐笔成交因子,探讨其选股能力、因子相关性及在组合构建中的应用。
核心论点与结论:
- 报告延续之前关于逐笔成交数据挖掘的研究,证实在正交处理后,多数逐笔成交因子月均信息系数(IC)在0.03至0.04之间,且年化ICIR显著超过2,展现稳定的选股效能。
- 不同指数范围对因子效能有影响:如在中证800指数内多个因子强势,在中证500指数内选股能力整体减弱。
- 调仓频率影响因子效果,半月调仓优于月度,周度调仓表现部分因子趋向回落。
- 逐笔因子与传统技术因子存在一定相关性,且因子之间也有复杂相关,需注意因子构建时避免多重共线性。
- 一些逐笔因子在组合构建中能显著提升指数增强策略的表现,尤其在年化超额收益方面表现突出。
- 报告同时明确指出策略仍面临市场系统性风险、流动性风险及政策风险。
总体报告语气专业、系统,提供了丰富的量化回测支持,强调逐笔成交因子在量化选股和组合管理中的潜在价值。[page::0,4,5]
---
二、逐节深度解读
1. 因子定义
报告选取六个关键逐笔因子:
- 大买成交金额占比:大笔买单成交金额占总成交金额比例。
- 买单集中度:买单成交金额的集中程度。
- 盘中主买占比(占全天成交):盘中(10:00-14:26)买单金额占全天成交的比例。
- 开盘后日内净主买强度:开盘后(09:30-09:59)净买金额的标准差,衡量日内买方强度波动。
- 开盘后知情主卖占比(占同时段成交):开盘时段卖出部分的占比(指标做了符号调整保证因子IC为正)。
- 尾盘知情主买占比(占全天成交):尾盘(14:27-14:56)买单金额占全天成交的比例(同样做符号调整)。
指标基于2014年以来数据计算,剔除ST及上市未满6个月的新股。[page::4]
2. 因子选股能力回测
2.1 月度选股能力
- 月均IC:因子月均IC在未正交前范围较大,买单集中度最高达到0.07,正交后趋于0.03-0.04区间。
- ICIR表现:除买单集中度外,多数因子年化ICIR超过2,显示强稳定性。买单集中度年化ICIR稍低,提示可能与市场核心因子存在一定重叠。
- 多空收益:月度多空收益最高接近2.3%(买单集中度),其他因子在1%左右或略高。正交后大买成交金额占比月度多空收益提升至1.46%。
- 图表分析:
- 图1与图2展示了正交前后因子分组的月度超额收益分布,均体现因子分组的持续单调递增趋势,正交后单调性更强,说明除去相关因子的噪音后,因子信号更纯净。
- 图3展示前后10%多空组合净值曲线,体现大买成交金额占比和买单集中度等因子长期稳步上涨;
- 图4显示因子回归溢价累计净值,表明因子效应在剔除行业、市值、估值等低频因子影响后仍明显。
- 年度表现差异:买单集中度在2017、2019年表现弱于其他年份;开盘后知情主卖占比2018、2019年选股表现减弱,显示因子有一定周期性和环境依赖性。[page::5,6]
2.2 不同指数范围选股能力
- 选股因子在全市场、中证800、沪深300均表现较优,尤其大买成交金额占比、盘中主买占比和尾盘知情主买占比。
- 在中证500范围内,除大买成交金额占比外,其他因子选股能力出现明显缩水,多头超额收益下降明显。
- 各指数内因子的月均IC、年化ICIR和多头收益均显示出因子对不同市值范围的适用性差异,可能反映了大盘股与中小盘股行为差异。
- 盘中因子如开盘后知情主卖占比多头效应较强,适用于更广泛指数。
此节揭示因子跨指数的稳定性和适用边界,为实际投资组合选股提供指导。[page::7]
2.3 不同调仓频率选股能力
- 从月度调仓提高到半月度调仓,几乎所有因子的ICIR和多空收益均有所提升,提升选股效率,增强收益稳定性。
- 周度调仓中,只有大买成交金额占比和尾盘知情主买占比进一步提升,其他因子表现反而略有回落。
- 解释是调仓频率提升缩短了计算窗口,短期数据可能噪声增多,导致部分因子信号减弱。
- 多头超额收益随调仓频率提升呈现非线性趋势。
该结论对选股策略调整频率及监控周期选择具有实操意义。[page::8]
3. 因子相关性分析
- 逐笔因子与传统低频因子相关性测算显示,部分逐笔因子与市值、换手率、前期涨幅、估值存在一定程度的相关,提示部分因子对应一些基础股价和流动性特征。
- 具体如大买成交金额占比与市值呈正相关,与估值呈负相关。买单集中度负相关比较显著(尤其与市值和换手率),显示对不同类型股票的偏好。
- 逐笔因子相互间也存在相关性,特别是开盘后日内净主买强度与开盘后知情主卖占比相关系数达0.47,存在信号重叠风险。
- 报告建议在使用时避免高度相关因子的同时纳入模型,防止冗余及多重共线问题。
该部分为因子有效组合提供理论依据和筛选建议。[page::9]
4. 因子在组合构建中的应用
- 基于中证500指数增强组合(月度调仓),测试将各因子单独加入基础模型后表现。
- 结果显示买单集中度的引入带来最大年化超额收益提升,从18.7%提升至21.5%。
- 大买成交金额占比和盘中主买占比加入模型未必改善整体组合表现,可能与因子多头效应弱相关。
- 引入逐笔因子的组合显著优于基础模型,且在不同年份表现稳定提升。
- 进一步,在基础模型已包含分钟级高频因子的条件下,逐笔因子仍能够带来增益,证明其信息的独立性和补充价值。
- 图5与图6分别展示因子加入后的组合相对中证500指数的相对强弱走势,均明显优于基础模型。
此节明确针对实际投资模型的增益效果,显示逐笔因子有较高的实用性价值。[page::9,10,11]
5. 总结
- 逐笔因子在全市场及不同指数中均表现出稳定、显著的选股能力。
- 指数范围和调仓频率调整对因子表现影响显著。
- 部分因子长期收益贡献突出,部分因子适用性受指数及调仓频率限制。
- 结合实证回测,逐笔因子能有效提升指数增强策略的回报。
- 风险提示明确指出策略依赖于市场流动性、系统风险及政策环境。
整体报告架构严谨,论证清晰,针对买卖单逐笔数据的深度挖掘开辟了高频数据选股的应用新视角。[page::11]
6. 风险提示
- 报告从市场系统性风险、资产流动性风险和政策风险三个维度预警了量化策略可能受限因素,提醒投资者须谨慎评估外部风险对策略表现的冲击。
- 风险提示简洁但覆盖了量化模型常见不可控制因素。[page::0,11]
---
三、图表深度解读
图1与图2:逐笔因子分10组月度超额收益对比(正交前和正交后)
- 描述: 反映各因子分层组合在月度超额收益的走势,数据覆盖2014-02至2020-01。
- 解读: 图1(正交前)多因子呈现上涨趋势,但线条交错较多,买单集中度起伏最大,体现信号包含较多混杂因素;图2(正交后)呈现更明显的单调性,且多因子收益排布更合理,说明剔除了相关因子后因子体系更纯净。
- 联系文本: 支持正交处理提升因子信号稳定性的说明,验证报告关于因子优化处理效果。
- 潜在限制: 图中无具体数值标签,无法精确判断具体均值,仅为趋势展示。


---
图3:逐笔因子多空相对强弱组合净值
- 描述: 展示前后10%多空组合净值增速,反映各因子区分能力和多头收益积累。
- 解读: 大买成交金额占比与买单集中度远超其他因子,表现持续上扬至近3倍左右的净值,表明其强有力的选股效能。盘中主买占比虽较弱,但整体呈现上涨趋势。
- 联系文本: 与表2年度多空收益相呼应,确证顶级因子的价值。
- 限制: 图线平滑,未体现波动风险。

---
图4:逐笔因子回归溢价累计净值
- 描述: 逐笔因子回归模型中净值累积曲线,剔除其他低频因子影响后净收益体现。
- 解读: 逐笔因子仍能产生稳定正收益,突出大买成交金额占比和尾盘知情主买占比,证明逐笔成交信息的纯粹alpha信号。
- 联系文本: 强化了因子独立选股能力。
- 限制: 规模效应未讨论。

---
图5与图6:逐笔因子加入后组合相对于中证500指数的表现
- 描述: 展示各因子组合相较基准的相对强弱指数表现,分别为普通基础模型和含分钟高频因子基础模型。
- 解读: 两图均见买单集中度组合表现最佳,且所有逐笔因子组合均优于基础模型,体现因子提效。基础模型含高频因子后,逐笔因子仍保持增益效应,展示其补充价值。
- 联系文本: 证实逐笔因子用于量化增强策略有实际效果,符合量化投资多因子组合构建原则。
- 限制: 相对指标不直观体现绝对收益波动。


---
四、估值分析
报告侧重因子挖掘与回测,未直接涉及企业估值分析,未采用DCF、市盈率等传统估值模型。其核心是基于量化统计学方法(IC、ICIR、因子收益等)评估因子有效性,并以年化超额收益反映因子对增强组合的价值贡献。因而估值分析部分属于因子选股能力的评估范围。[page::全篇]
---
五、风险因素评估
- 市场系统性风险: 影响所有股票和因子有效性的整体市场波动风险,可能导致因子时效性下降。
- 资产流动性风险: 逐笔因子依赖高频交易数据,流动性不足可能影响因子信号真实性及执行效果。
- 政策变动风险: 政策环境的变动可能突发影响市场结构和参与者行为,因子捕获的信号效果会随之改变。
报告未展开具体缓解策略,意在提示投资者需保持警惕,并结合自身风险偏好调整使用。[page::0,11]
---
六、批判性视角与细微差别
- 因子相关性及多重共线性: 报告多次提及因子间相关性,提示使用时需谨慎组合,避免冗余信号导致模型过拟合。此处体现出报告对于因子独立性和稳健性的重视。
- 调仓频率的影响: 调仓频率对因子效果影响复杂,周度调仓效果下降提示短期高频信号可能噪声增多,反映因子稳定性面对实际交易条件的挑战。
- 因子异质性及适用性限制: 不同指数范围对因子效果有显著影响,特别是中证500指数中多因子效能减弱,这意味着因子不能简单照搬到所有市场环境,需根据投资标的做适配。
- 效果波动与周期性指标: 部分因子在特定年份表现弱化,暗示因子可能受宏观经济周期或市场结构影响,未来需要持续调整和验证。
- 收益贡献与组合表现的非一致性: 大买成交金额占比在单因子测试中表现优异,但未必能提升多因子组合整体表现,说明因子与其他因子的协同效应及模型设定极其关键。
- 缺少微观结构风险和执行成本讨论: 报告未深入讨论高频因子策略实施的交易成本、滑点及冲击成本等实际问题,实际应用中需注意。
- 数据处理透明度: 虽提及剔除ST股及新股,但因子计算具体算法未在本报告详述,需查阅前期专题报告补充理解,略显依赖外部资料。
总体报告保持客观、数据驱动,但投资者需理解局限,结合实际情况审慎运用。[page::4,8,11]
---
七、结论性综合
本报告系统梳理基于逐笔成交数据的高频选股因子,采用多维量化分析和实证回测验证其市场选股能力及策略增强效果。具有以下关键发现:
- 六大逐笔因子均表现出正向显著的选股能力,表现稳定且信息含量丰富。特别是大买成交金额占比和买单集中度,长期贡献较大超额收益。
- 通过正交处理去除传统因子影响后,逐笔因子信号更为纯净和稳定,月均IC和年化ICIR均表现良好。
- 不同指数范围的选股效能差异显著,中证800和沪深300中因子表现最佳,针对中小盘的中证500指数表现相对弱化。
- 调仓频率调整影响因子表现,半月调仓优化整体效果,周度调仓非所有因子均受益,显示因子时效性和稳定性有波动。
- 逐笔因子与传统低频因子存在一定相关性,因子内部亦有一定关联,需谨慎组合,避免因子冗余带来误判。
- 在构建指数增强组合时,恰当引入逐笔因子可显著提升年化超额收益,尤其是买单集中度等因子。即使基础模型已包含高频分钟因子,逐笔因子仍增值显著。
- 风险提示涵盖系统性风险、流动性风险、政策风险,呼吁投资者关注外部环境变化对模型影响。
报告评价: 本文坚实地将微观交易数据引入因子挖掘领域,通过细致的数据背书和多维度回测展现了逐笔成交信息的alpha价值。既有理论深度,也兼顾实用层面,为量化投资因子的拓展提供了重要视角。同时提示了实际应用中的风险与局限,为投资者提供理性参考。
此研究为后续微观市场结构与高频数据应用的深化奠定了基础,值得关注和进一步验证。
---
附:主要参考图表
- 表1:正交前后逐笔因子月度IC与多空收益,对比展示因子稳定性和回报水平。
- 表4:不同指数下因子的IC、收益统计,揭示市场分层影响。
- 表5:不同调仓频率下的因子表现,提示因子使用频率的重要性。
- 表6、7:因子与传统因子、因子内部相关性矩阵,指导因子组合挑选。
- 表8、9及图5、图6:量化组合引入逐笔因子的实战表现及相对强弱指标。
图表为报告提供了充分的数据支撑,是理解因子效用的关键工具,建议研究者详细研读以把握因子逻辑与表现。
---
溯源标识: 以上所有分析结论均来源于海通证券《选股因子系列研究(五十九)》2020年2月12日报告正文和图表内容页,标注方式详见具体引用处[page::0-11]。