选股因子系列研究(六十六)——寻找逐笔交易中的有效信息
创建于 更新于
摘要
本报告基于逐笔交易中的大买成交金额占比因子,系统分析大资金动向对选股效果的影响,发现大买成交金额占比对股票未来上涨具有显著预测力,而大卖成交金额占比的预测作用较弱。通过逐笔成交信息过滤重构分钟K线,利用过滤后的K线计算高频因子,提升了因子表现。结合大单因子与传统风格因子构建增强组合后,显著提升中证500和沪深300的多头收益表现。报告还揭示大单因子预测能力随时间窗口的递减特征,并提出基于大单信息的高频数据处理是未来研究方向 [page::0][page::4][page::5][page::6][page::11][page::14][page::16]
速读内容
- 基于逐笔成交数据的大买成交金额占比因子具有稳定且显著的正向选股能力,而大卖成交金额占比因子预测力较弱且不对称,表明大资金买入意愿对股价上涨影响更大 [page::4][page::5]。
| 因子类型 | 因子名称 | IC均值 | ICIR | IC为正比率 | 多空收益 | 多头收益 |
|---------|--------------------|--------|------|------------|----------|----------|
| 全市场 | 大买成交金额占比0倍 | 0.057 | 5.012| 92% | 2.04% | 0.76% |
| 全市场 | 大卖成交金额占比0倍 | 0.005 | 0.474| 55% | 0.07% | 0.05% |
- 细分大买与大卖成交金额占比,发现同时由大买单和大卖单共同参与的成交金额比例高时选股能力强,剔除大买单参与的大卖成交金额占比则表现为负向选股能力,表明卖单对手方是小订单时预测效果更明显 [page::7][page::8]。

- 大单因子(大买成交金额占比、剔除大买的大卖成交金额占比、正交大买成交金额占比)加入传统9因子组合,构建中证500和沪深300增强因子组合后,复合因子IC和多头收益均明显提升。以中证500增强组合表现最佳,年化收益率达到约17.95% [page::9][page::10][page::11]。
- 采用基于大买或大卖订单参与的成交信息过滤,重构分钟K线,用重构的K线计算三类高频K线因子(平均单笔流出金额占比、大单资金净流入率、大单推动涨幅),整体因子表现较用原始K线提升,尤其在中证500更为明显 [page::12][page::13][page::14]。

- K线因子与大单因子结合后,剥离大单因子影响后原始K线因子表现更佳,表明重构K线因子信息增益主要来自大单特性。使用剔除大买的大卖成交金额占比或正交大买成交金额占比因子与K线因子叠加,500增强组合多头年化收益最高可达近19.87% [page::15][page::16].
- 大单因子对未来收益的预测能力随着预测区间时间的延长而逐渐减弱,10个交易日后预测效果明显下降,提示大单因子适宜应用于短周期量化策略 [page::16].
- 报告指出市场系统性风险、模型误设风险及有效因子变动风险是需要重点关注的风险因素 [page::0][page::16].
深度阅读
报告深度解析报告:选股因子系列研究(六十六)——寻找逐笔交易中的有效信息(海通证券研究所)
---
一、元数据与报告概览
- 报告标题:选股因子系列研究(六十六)——寻找逐笔交易中的有效信息
- 作者及机构:冯佳睿、余浩淼,海通证券研究所
- 发布日期:2020年6月(具体数据至2020年5月)
- 研究主题:本报告聚焦于利用A股市场逐笔交易数据,尤其是通过大买单和大卖单成交金额占比设计选股因子,构建高频数据与低频因子结合的选股及增强策略,并对因子表现进行详尽评估和应用测试。
- 核心论点:
- 大买成交金额占比因子能够较好地捕捉大资金买入意愿,具有显著的正向选股能力。
- 大卖成交金额占比因子整体表现不佳,其预测未来股票下跌的能力不足。
- 利用大单成交信息过滤重构分钟K线,可以显著提升部分高频因子选股效果。
- 设计的因子叠加传统九因子(如市值、估值、动量等),构建增强组合后表现稳健。
- 该类因子的预测能力集中于较短时期(约10个交易日),适合短周期策略设计。
- 风险提示:市场系统性风险、模型误设风险、有效因子变动风险[page::0,4,16]。
---
二、逐节深度解读
1. 大单成交金额占比因子表现分析
1.1 与大单因子orthogonal(正交)后的大买与大卖成交金额占比因子
- 关键论点:大买成交金额占比因子在剔除行业效应、市值、估值等9因子正交处理后依然保持良好的截面收益预测能力,而大卖成交金额占比因子的预测能力微弱且不稳定。
- 逻辑支撑:通过对2014年初至2020年5月全市场及不同指数(中证500、沪深300)分组分层的买卖成交占比统计,计算信息系数(IC)、ICIR(信息系数的稳定性指标)、多头与多空收益等指标,结果表明大买成交金额占比的IC均值普遍为正(全市场0倍标准差IC均值0.057),且表现稳定,而大卖成交金额占比的IC值靠近0或略有正向,但信号不显著。
- 具体数据:
- 全市场“大买成交金额占比0倍”IC均值为0.057,ICIR为5.012,多头收益0.76%。
- 相比之下,大卖成交金额占比因子对应IC均值为0.005,ICIR0.474,表现弱。
- 过滤严格(高于1倍标准差)后,大买因子表现下降,说明因子最佳稳定区间。
- 重要表格:
- 表1详细列出了不同参数条件下买卖成交金额占比因子的表现数据。
- 推断及结论:
- 大资金买入行为(大买成交占比)更能提前反映股票上涨概率。
- 大资金卖出行为预测能力不足,可能因为卖出大单对手方多为非大单订单,导致预测信号弱。[page::4,5]
1.2 进一步拆分后的大买与大卖成交金额占比因子
- 因子拆分定义:
- 剔除大卖的大买成交占比:买单为大单,卖单非大单成交额占比。
- 剔除大买的大卖成交占比:卖单为大单,买单非大单成交额占比。
- 大买、大卖成交金额占比:买卖双方均为大单成交额占比。
- 核心发现:
- 当买卖双方均为大单参与时,因子显示明显的正向选股能力;
- 当卖方为大单但买方为小单时,因子则表现负向选股能力,即该卖单对股价形成压力。
- 其他组合,尤其剔除大卖的大买成交因子,选股效果较弱。
- 主要数据:
- 全市场大买、大卖成交金额占比IC均值为0.045,ICIR3.879,多头收益0.55%。
- 剔除大买的大卖成交金额占比IC均值为-0.062,ICIR-5.280,呈现倒相关。
- 图形支持:
- 图7至图12分别展示三个因子在全市场、中证500与沪深300下的多空收益态势,统一显示大买、大卖因子分组收益曲线明显优于其他因子。
- 内在逻辑:成交双方若均为大单,说明大资金双向参与,信息优势更大;而单向卖大单成交且对手为小单,则代表被动性卖出压力。
- 截面相关性分析:
- 大买成交金额占比与大买大卖成交占比相关性极高(0.87),剔除大买的大卖成交占比与大买成交金额占比则负相关,反映了因子结构的内在冲突和动力来源[page::7~9]。
1.3 大单因子对传统指数增强组合多头表现
- 核心结果:
- 将大买、大卖相关因子加入传统九因子模型中,构建增强组合,能提升因子整体IC及部分多头IC水平。
- 中证500增强组合中剔除大买的大卖成交金额占比因子表现最优,沪深300增强组合中正交大买成交金额占比因子表现最佳。
- 具体表现:
- 表7中显示中证500九因子组合IC为0.067,加入大买因子后为0.080。
- 超额收益在2016年至2020年区间较为稳健,最大收益超过指数15%以上。
- 年度表现:
- 表8和表9详细展示了中证500及沪深300增强组合按年超额收益及月超额均值和胜率,其中中证500增强组合多年 outperform,沪深300表现稍逊。
- 含义解析:
- 大单因子对于中等市值、中盘股具有更强选股效用,沪深300中的大蓝筹由于流动性和市场关注度高,因子有效性弱于中证500[page::9~11]。
2. 基于大单信息的逐笔交易过滤重构K线因子
2.1 逐笔成交信息过滤与K线重构定义
- 背景说明:
- 传统K线指标是分钟时间窗口内所有逐笔成交数据的统计,未区分单据性质。
- 利用逐笔大单的成交属性,筛选显著交易信息进行K线重构,有望提炼更准确的高频量价信号。
- 重构方法说明:
- 图13提供K线重构原理示意图,剔除部分小单成交后,满足条件的大买单或大卖单形成新的K线。
- 因子定义:
- 平均单笔流出金额占比:下跌时间段成交金额除以总成交金额,衡量空方压力强度。
- 大单资金净流入率:大单成交额买卖差除以总成交额,反映资金净流入状况。
- 大单推动涨幅:大单K线涨幅乘积,刻画大单带动的价格走势。
- 假设:过滤掉小单后,K线因子信息含量提升,表现更具有一致性和预测能力[page::11~12]。
2.2 重构K线因子的截面选股效果
- 比较结果:
- 表10显示,使用保留大买或大卖订单的成交数据重构K线,三大因子的IC均优于原始K线构建。
- 反之,严格过滤(如仅大买大卖订单参与)导致成交信息损失,因子表现下降。
- 表11显示重构K线对中证500增强效果提升明显,沪深300改善有限。
- 数据分析逻辑:
- 保留较多成交信息避免信号稀释,且突出大单交易有助于捕捉主力资金动向。
- 不同模型过滤强度对因子表现的影响,可为后续策略参数优化提供参考[page::12~14]。
2.3 重构K线因子在中证500增强组合表现
- 指标表现:
- 表12、13显示重构K线之后平均单笔流出金额占比和大单资金净流入率因子复合IC和多头IC均有所提升(复合多头IC由0.012提升至0.014左右)。
- 大单推动涨幅因子表现提升不明显,且多头IC略有下降,表明不同因子对于数据重构的敏感度存在差异。
- 组合年化收益:
- 重构因子加入后增强组合年化收益稳定维持15%左右,月度胜率有所提升,提升了组合的稳定性和可靠性[page::14]。
2.4 K线因子与逐笔大单因子的结合
- 方法论:
- 对重构K线因子与两类表现优异大单因子(剔除大买的大卖成交金额占比、正交大买成交金额占比)分别进行正交处理,剥离共性影响,观察因子截面表现。
- 重要发现:
- 正交大单因子后,原始K线因子表现优于重构K线因子,因为重构K线因子的增益主要来自与大单因子的相关性。
- 因子线性相关性较高,重构K线因子与大单因子间存在信息冗余,影响两者叠加效果的提升。
- 复合因子表现:
- 表15显示,9因子+大单因子+K线因子复合模型整体IC提升明显。
- 其中,正交大买成交金额占比因子叠加平均单笔流出金额占比因子后表现最优,年化多头组合收益增至19.87%。
- 意义:
- 表明大单相关因子和部分重构K线因子组合能够较好地捕获不同角度的市场信息,提高模型的选股效率和利润表现[page::15~16]。
3. 总结
- 研究亮点:
- 确定了大买成交金额占比为代表大资金买入意愿的有效选股因子。
- 发现大卖成交金额占比整体低效,但拆分卖方大单与非大单的交易对成功捕捉负向信号有效。
- 结合高频逐笔数据,通过过滤重构K线,提高部分技术面因子的预测能力。
- 大单因子对中证500增强组合贡献显著,显示对中盘股资金流动的敏感捕捉能力。
- 因子对短期(10日交易日内)收益的预测能力明显,表明适合短周期策略应用。
- 后续研究方向:
- 探索不同过滤参数对重构K线指标影响。
- 研究多维高频数据对低频技术指标提升效果。
4. 风险提示
- 系统性市场风险:可能导致因子失效的整体市场风险。
- 模型假设误差风险:模型假设与实际市场行为偏离可能影响效果。
- 因子有效性变动风险:市场环境变化可能导致因子表现波动[page::0,4,16]。
---
三、图表深度解读
重要图表解读
图1至图6:正交大单成交金额占比因子分组收益与多空净值
- 描述:
- 展示了全市场、中证500及沪深300范围内正交大买成交金额占比、原始大单成交金额占比及正交大卖成交金额占比三个因子分组收益和多空组合净值的走势。
- 数据趋势:
- 正交大买成交金额占比因子蓝色线表现稳定上升,收益明显优于其他两因子。
- 大卖成交金额占比因子多空净值基本平稳,说明无明确收益区分度。
- 大单成交金额占比因子表现居中,体现大单成交涵盖双向交易特点。
- 支持论点:
- 明确显示大买成交金额占比因子具备稳定的选股信号和超额收益潜力。
- 直观说明大卖交易行为的截面选择能力有限[page::6]。
图7至图12:细分大单成交金额占比因子分组收益与多空净值
- 描述:
- 分别展示“剔除大卖的大买成交金额占比”,“大买、大卖成交金额占比”,“剔除大买的大卖成交金额占比” 在各市场内的表现。
- 数据趋势:
- 同时出现大买、大卖大单参与时,因子表现突出,收益持续正向。
- 剔除对方大买或大卖后,选股信号方向性明显,一方为买时呈正收益,一方为卖时呈负收益。
- 推论:
- 证明大单对双方成交影响的差异性,和对未来预期收益的指示作用[page::7,8]。
图13:K线重构示意图
- 描述:
- 直观说明传统K线包含所有买卖订单成交,重构K线过滤部分订单后形成新的价量关系。
- 意义:
- 说明重构是为突出大单成交行为,减少小单干扰[page::12]。
---
四、估值分析
本报告核心为选股因子构建与验证,未涉及传统企业估值模型如DCF或P/E分析。
---
五、风险因素评估
- 报告强调系统性风险可能导致全市场因子失效,尤其在市场极端波动期;
- 模型假设风险指出构造的因子基于历史数据,未来市场结构或行为变化可能导致因子失效;
- 因子变动风险指因子性能可能随市场周期、资金行为变化而出现波动,因此应持续动态监测因子表现[page::0,4,16]。
---
六、批判性视角与细微差别
- 因子偏差:大卖成交金额占比因子预期应为负向信号,但实测表现甚微甚至略微正向,说明卖出大单对方多为非大单,市场反应复杂,需谨慎解释。
- 信息局限:因子来自渐进式逐笔数据的统计特征,可能忽视了订单簿深度、信息披露等其他重要微结构信息。
- 样本区间与市场环境:研究数据主要覆盖2014-2020年,市场事件和制度变化可能影响因子稳定性,报告建议运用需结合实际变化加以调节。
- 高频转换低频策略挑战:因子对短期收益预测效果较强,长期应用效果递减,策略设计需精细匹配持仓周期。
- 因子叠加效应:报告指出重构K线与大单因子相关性较大,因子叠加提升有限,叠加使用时应注意多因子相关性管理[page::5,12,15,16]。
---
七、结论性综合
本报告基于2014年至2020年A股市场逐笔交易数据,探究大买/大卖成交金额占比相关因子在选股中的有效性,核心贡献如下:
- 大买成交金额占比因子作为代表大资金买入意愿的因子,具备稳定且显著的正向截面选股能力,逻辑清晰且数据充分支持。
- 大卖成交金额占比因子整体表现弱,单纯大额卖单成交难以有效预测股价下跌,但将卖单成交对手区分为大单和非大单后,剔除大买成交的卖单因子表现出负向选股能力,揭示了大卖单成交特征的复杂性。
- 通过对逐笔成交数据过滤重构分钟K线,保留大买或大卖订单参与的成交信息,能够显著提升部分基于K线构建的高频技术因子的选股效果,为传统低频因子价值提升开辟思路。
- 因子叠加九风格因子构建的增强组合在中证500市场表现优异,年化超额收益持久,沪深300市场表现提升有限,体现该因子对中盘股更为有效。
- 因子对短周期收益预测能力较强,尤其在10个交易日内效果显著,提示大单成交信息适合用于短期及中频频交易策略设计。
- 未来研究方向包括深挖因子筛选参数调优方法、多频数据融合方案及动态因子表现监测。
综上,报告系统、详实地论证了基于大单逐笔成交金额占比的选股因子价值,细致剖析了买卖大单行为对市场的不同影响,并创新地尝试了基于大单过滤的K线重构方法提升因子表现。此报告对于量化选股因子研究,尤其是高频数据与低频因子结合应用具备重要参考价值。[page::0~18]
---
说明
本分析严格依据报告内容展开,恪守中立客观原则,注重对所有关键图表、数据及概念详尽解释,力求结构完整、逻辑清晰,并按照要求标注了内容来源页码,方便后续文本溯源。