`

选股因子系列研究(七十)——日内市场微观结构与高频因子选股能力

创建于 更新于

摘要

本报告深入研究了基于日内不同时段数据计算高频选股因子的选股能力差异,发现在开盘后30分钟和剔除开盘后30分钟的数据中,不同类别的因子表现出显著差异。通过分析日内市场的微观结构特征(包括成交额、大单占比、分钟波动率及买卖价差的时段分布),推断开盘后30分钟具有更高的信息含量和知情交易者参与度,从而影响因子的有效性。实证结果显示,针对知情交易行为构建的因子,在使用开盘后数据计算时表现更优,而刻画投资者过度反应的因子则适合剔除该时段的数据计算。以上改进也在沪深300与中证500指数增强组合上显著提升了收益表现和风险控制,为高频因子策略的设计提供了重要的微观结构视角和实证依据 [page::0][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11].

速读内容

  • 高频因子基于日内不同时段数据计算展现不同选股能力 [page::4]:

- 净委买占比、净主买占比、知情主卖占比、买入意愿占比及买入意愿强度等因子,在使用开盘后30分钟数据计算时表现更佳。
- 高频偏度、下行波动占比、委托成交相关性等因子,在剔除开盘后30分钟数据计算时选股能力更强。
  • 股票日内成交呈现U型分布,开盘后30分钟及收盘前30分钟成交占比最高 [page::5]:


- 该特征广泛存在于不同指数范围内(全市场、中证800外、中证500、沪深300)。
  • 大单成交同样呈U型分布,体现大资金行为集中于开盘后和收盘前 [page::6][page::7]:



- 开盘后大单占比高于收盘前,反映更高的信息含量及知情交易者聚集。
  • 部分主动交易型因子在开盘后30分钟表现优于收盘前30分钟,表明两时段信息和参与者异质性 [page::7]:

| 因子名称 | 月度IC均值(全天) | 月度IC均值(开盘后) | 月度IC均值(收盘前) | 月均多空收益(全天) | 月均多空收益(开盘后) | 月均多空收益(收盘前) |
|--------------|--------------------|----------------------|----------------------|----------------------|------------------------|------------------------|
| 净委买占比 | 0.02 | 0.03 | 0.00 | 0.57% | 0.97% | 0.16% |
| 净主买占比 | 0.01 | 0.02 | 0.01 | 0.33% | 0.72% | 0.35% |
| 知情主卖占比 | -0.02 | -0.02 | -0.02 | 0.61% | 0.75% | 0.22% |
| 买入意愿占比 | 0.02 | 0.03 | 0.02 | 0.69% | 1.06% | 0.40% |
| 买入意愿强度 | 0.03 | 0.04 | 0.02 | 1.01% | 1.36% | 0.78% |
  • 股票日内收益波动及盘口买卖价差呈现L型分布,开盘后时段波动和价差较高,[page::8][page::9]:



- 反映开盘后市场信息不对称程度高,知情交易者活跃度高,收盘前价差较低表明知情交易者较少。
  • 高频因子构建逻辑区分知情交易行为与投资者过度反应,分别对应不同时段优异表现 [page::9]:

- 知情交易者因子适合使用开盘后30分钟数据计算,过度反应因子适合剔除该时段计算。
  • 组合实证测试:使用开盘后数据计算的因子提升组合收益及风险表现 [page::10][page::11]:

- 中证500指数增强组合:使用开盘后买入意愿强度因子年化超额收益提升约3.6%,最大回撤下降,波动率略降。

| 年度 | 超额收益(全天) | 超额收益(开盘后) | 最大回撤(全天) | 最大回撤(开盘后) | 年化波动率(全天) | 年化波动率(开盘后) |
|----------------|----------------|------------------|----------------|------------------|------------------|--------------------|
| 2016 | 27.1% | 29.8% | 1.9% | 1.5% | 5.7% | 5.3% |
| 2017 | 9.6% | 14.5% | 2.5% | 2.2% | 4.9% | 4.8% |
| 2018 | 19.1% | 19.2% | 2.0% | 1.9% | 5.9% | 5.6% |
| 2019 | 11.5% | 18.2% | 5.9% | 6.4% | 6.2% | 6.1% |
| 全区间 | 19.1% | 22.7% | 5.9% | 6.4% | 6.0% | 5.8% |


- 沪深300指数增强组合:使用开盘后买入意愿占比因子同样带来超额收益提升约1.7%,组合净值持续优于全天数据构建组合。

| 年度 | 超额收益(全天) | 超额收益(开盘后) | 最大回撤(全天) | 最大回撤(开盘后) | 年化波动率(全天) | 年化波动率(开盘后) |
|----------------|----------------|------------------|----------------|------------------|------------------|--------------------|
| 全区间 | 10.1% | 11.8% | 4.9% | 4.2% | 4.3% | 4.3% |

  • 风险提示:策略表现可能受市场系统性风险、流动性风险及政策变动风险影响 [page::0][page::12]

深度阅读

《选股因子系列研究(七十)》详尽解析报告



---

一、元数据与概览



报告基本信息

  • 标题:《选股因子系列研究(七十)——日内市场微观结构与高频因子选股能力》

- 发布日期:2020年2月12日
  • 发布机构:海通证券研究所

- 主题:围绕中国股票市场高频数据选股因子的挖掘和微观结构的分析,重点探讨不同日内交易时段对高频选股因子效用的影响。
  • 分析师:冯佳睿、袁林青


核心论点与目标


报告认为:
  • 高频选股因子的选股能力受计算所用日内数据时段的显著影响。

- 部分因子(如净委买占比、买入意愿强度等)在使用开盘后30分钟数据计算时表现更优,而另一些因子(如高频偏度、下行波动占比等)在剔除开盘后30分钟数据时更具效力。
  • 股票日内成交呈现U型分布,开盘后和收盘前30分钟成交集中,且大单交易也集中于这两个时间段,但开盘后和收盘前30分钟的市场微观结构存在本质差异,前者聚集更多知情交易者。

- 股票日内波动率和盘口买卖价差呈L型分布,开盘后买卖价差较大,反映出信息不对称性更明显。
  • 通过调整因子计算时段,可提升选股组合的收益表现,典型案例:中证500指数增强组合年化收益提升约3.6%,沪深300指数增强组合提升约1.7%。

- 风险提示包括市场系统性风险、流动性风险及政策调整风险等。[page::0,4,5,9,11,12]

---

二、章节深度剖析



1. 不同时段数据计算得到的高频因子



关键论点

  • 日内高频因子选股能力因计算时段不同而差异明显。

- 将全天交易数据拆分为“开盘后30分钟”(9:30-9:59)与“剔除开盘后30分钟”(10:00-14:56)两段,分别计算因子值,结果显著不同。

支撑逻辑

  • 表1展示的月度信息系数(IC)和多空收益,部分因子如净委买占比、买入意愿强度在“开盘后”计算时,IC值和多空收益明显升高。例如,买入意愿强度的月均多空收益由全天的0.78%提升至开盘后的1.36%。

- 另一类因子如高频偏度、下行波动占比在剔除开盘后时段数据计算选股能力更强。
  • 研究推断此差异源于日内市场投资者构成的差异:主动交易因子更能捕捉“知情交易者”的行为。这部分交易者在开盘后活跃度高,具有信息领先优势;而过度反应因子反映投资者情绪波动,更适合剔除开盘后数据进行衡量。


重要数据点

  • 表1显示的月度IC均值及多空收益数据为核心证据,支持按时段构建高频因子的策略调整。[page::4]


2. 日内不同时段的投资者行为



关键论点

  • 股票日内成交和大单成交呈现U型分布,集中在开盘后及收盘前30分钟。

- 该现象在市场不同指数板块均存在,如全市场、中证800以外、中证500和沪深300区间。
  • 开盘后成交占比略高于收盘前,暗示知情交易者主要聚集于开盘时间段。

- 依据海外经典文献(Admati & Pfleiderer,1988),知情与流动性交易者的日内聚集在开盘和收盘时间段交织,非自主流动性交易者更多集中于行情两端,造成市场微观结构差异。
  • 参与研究的大单被定义为买卖单成交额对数分布的高阈值,结果发现大单也呈U型分布,与总成交分布类似。


支撑逻辑

  • 通过逐笔数据还原买卖单,合理区分大单,说明了高频数据用于区分资金性质及市场结构的有效性。

- 虽然开盘后和收盘前均聚集大量成交与大单,但因子测试显示这两个时段性质不同,开盘后时段知情交易者活跃度更高,据此推断因子重要性差异产生于投资者结构的异质性。

图表解读

  • 图1至图4清楚展示不同指数范围内的成交分布均呈U型,说明日内成交集中于开盘和收盘。

- 图5至图8中大单成交占比走势与成交占比走势高度一致,验证了大资金主要进出时点的结构特征。

重要数据点

  • 开盘后30分钟及收盘前30分钟的成交占比远高于日内其他时段,开盘成交稍占优。

- 大单成交额占比同样呈U型,增强了上述观点。[page::5,6,7]

3. 组合对比测试



3.1 中证500指数增强组合


  • 以买入意愿强度为例,将高频因子计算时段从全天改为开盘后30分钟。

- 表3数据显示,调整选用开盘后数据后,2016年至2020年7月期间超额收益均有所提高,2017年从9.6%提升至14.5%,整体区间累计提升3.6个百分点,最大回撤多数年份有所降低,年化波动率略有改善。
  • 图17的净值曲线显示,使用开盘后买入意愿强度的组合净值持续领先全天数据计算的组合,表现稳定。


3.2 沪深300指数增强组合


  • 以买入意愿占比因子为例,同样采用开盘后30分钟的数据计算。

- 表4显示,相较于全天数据,开盘后计算的因子提升了多年的超额收益,累计超额收益提升约1.7个百分点,波动率保持不变或略有波动。
  • 图18净值曲线再次验证开盘后数据因子带来的选股组合收益优势。


逻辑总结

  • 以开盘后数据计算高频因子,契合知情交易者活跃时间段,更好捕捉市场信息优势。

- 通过因子计算时段的微调,显著提升组合的风险调整表现,具有实际操作价值。[page::10,11]

4. 日内收益波动与买卖价差的分布特征


  • 股票日内收益波动和盘口买卖价差均呈现L型分布,最低点出现在中间时段,前端明显高于后端。

- 这一现象与海外市场不同,外国市场呈U型。
  • 结合文献(Glosten & Harris,1988)解读买卖价差,认为买卖价差大部分来源于信息不对称。开盘后价差较大反映出该时段信息不对称性程度最高,知情投资者活跃。

- 收盘前虽然成交量大,但价差较低,推测知情交易者所占比例较少。
  • 图9至图12展示收益波动的L型分布,图13至图16展示买卖价差分布相似。
  • 该结构支持早盘高频因子刻画知情交易行为的有效性,而晚盘被动交易者增多,过度反应因子因而采用剔除开盘后数据计算更有效。[page::8,9]


5. 总结与风险提示


  • 调整高频因子计算所用日内时间段可提升选股效果。

- 高频因子可分为两类:一是刻画知情交易者行为,适合开盘后数据;二是捕捉投资者过度反应,剔除开盘后数据效果好。
  • 高频因子选股能力差异根源于市场微观结构及投资者时段行为差异。

- 组合实证验证方法有效,提升了收益且多数年份风险指标改善。
  • 风险提示包含系统性风险、资产流动性风险和政策变动风险等,提醒投资者注意外部环境变化对策略表现的冲击。[page::11,12]


---

三、图表深度解读



表1:不同时段计算因子月度选股能力


  • 显示包含全天、开盘后、剔除开盘后计量的多个高频因子IC和多空收益。

- 例如买入意愿强度,月度IC由全天的0.03提高到开盘后的0.04,对应多空收益从0.78%提升至1.36%,说明该段交易时段优于全天计算。
  • 代理知情交易者的因子如净委买占比开盘后表现明显优于剔除开盘后,反映信息时效性的差异。

- 做为核心数据表,直接支持报告关于时段选择的核心论断。[page::4]

图1-4:不同时段成交占比


  • 清晰展示不同市场区间内成交额分布走势,头尾明显高峰,验证U型效应。

- 开盘后段成交占比较收盘前略高,符合美国等市场的经验,有助解释为何部分因子开盘后效果更佳。
  • 图线平滑,表现出数据稳健性。


图5-8:不同时段大单占比


  • 大买单与大卖单的分布趋势同步,均呈U型结构。

- 这进一步说明大资金行为集中特定时段,反映市场微观流动性和信息传递机制。
  • 数据来源逐笔成交还原买卖单,科学合理。


图9-12:不同时段分钟收益波动


  • 收益波动标准化后日内呈L型,即开盘高波动明显,尾盘波动降低,中段最低。

- 与成交分布分离,揭示不同交易时段的信息结构差异。
  • 基于国内市场行情,提出知情交易昼夜分布假说。


图13-16:不同时段买卖价差


  • 买卖价差日内也呈L型,与收益波动一致。

- 价差高低对应市场信息不对称程度,支持早盘信息优势更明显的观点。
  • 理论联系美国学术文献,增强报告说服力。


表2:部分高频因子开盘后与收盘前选股能力对比


  • 进一步细化开盘后30分钟与收盘前30分钟因子的IC及多空收益对比,如买入意愿强度开盘后IC 0.04,收盘前0.02,收益1.36%与0.78%差异明显。

- 实证层面揭示晚盘因子表现明显逊色,支持投资者结构差异的推断。

表3、4及图17、18:指数增强组合对比


  • 清晰量化开盘后因子计算对中证500和沪深300增强组合的正面贡献。

- 超额收益提升显著,风险指标如最大回撤普遍改善,波动率稳定,表明策略调整在风险收益特征上带来正向优化。
  • 净值曲线形象展示了相对优势的持续性和稳定性。[page::4-11]


---

四、估值分析



本报告主要围绕高频因子的构建和交易时段对选股能力的影响展开,未涉及传统公司估值模型或个股估值计算。重点在于因子信号提取和量化组合表现的实证检验,属于量化策略研究范畴。

---

五、风险因素评估


  • 市场系统性风险:整体宏观环境波动对因子表现可能产生较大影响。

- 资产流动性风险:流动性不足可能导致交易成本增加,影响因子信号的实际应用。
  • 政策变动风险:监管及政策调整可能引发市场结构及行为变化,削弱因子有效性。

- 报告强调,这些风险会对策略表现有较显著冲击,但未详细列出缓释措施,提示投资者密切关注环境变化。[page::0,12]

---

六、批判性视角与细微差别


  • 因子选择和样本依赖性风险:报告依赖2014年至2020年上半年数据,虽然覆盖较长时间,但因子表现能否延续到新环境需谨慎验证。

- 时段划分的精细度有限:将日内划分为开盘后30分钟与剩余时间,后续可探索更细粒度时间分段。
  • 知情交易者假设在国内市场的延展:报告将国外理论(Admati, Pfleiderer等)与国内实证结合,但国内市场结构与投资者行为存在差异,推断需审慎接受。

- 大单界定方法偏向统计阈值,未充分揭示资金性质:未来可结合机构投资者标识或资金来源进行更有效区分。
  • 因子风险管理与组合构建细节不足:虽有收益和风险指标对比,缺乏因子权重调整、交易成本剔除等实操细节分析。

- 海外市场波动和价差呈U型而国内呈L型,报告未深度探讨这一差异的本质成因,值得后续研究。

---

七、结论性综合



本报告通过详实的高频数据分析和丰富的实证检验,系统揭示了中国股票市场日内不同时间段的微观结构特征及其对选股因子选股能力的重要影响。核心发现包括:
  • 股票成交额与大单成交集中于开盘后及收盘前的U型分布,但开盘后包含更多的知情交易者,信息含量更高。

- 股票日内收益波动率和买卖价差却表现为L型,显示开盘后信息不对称性最强,收盘前相对较弱。
  • 高频因子可分为两类:一类刻画知情交易行为,另一类捕捉投资者过度反应行为。依此,前者采用开盘后数据计算效果显著提升,后者剔除开盘后数据更优。

- 调整因子计算时段明显增强因子月度选股能力,进一步提升中证500和沪深300增强组合的超额收益,同时风险指标有所改善。
  • 本质上,报告验证了基于市场微观结构理解的因子构建理念,提出时间窗口调整作为挖掘高频因子价值的有效路径,既理论趣味强,又具实操应用价值。


整体来看,报告立场中立且基于数据驱动,提出的高频因子时段修正策略为量化投资者提供了有益思路,但仍需注意市场环境变化和因子稳定性检验等风险,以实现长期稳健收益目标。[page::0-12]

---

附:主要关键图表示意



图1 不同时段成交占比(全市场)



图5 不同时段大单占比(全市场)



图9 不同时段分钟收益波动(全市场)



图13 不同时段平均买卖价差(全市场)



图17 中证500指数增强组合净值对比



图18 沪深300指数增强组合净值对比



---

总结



本报告深入剖析了日内微观结构对高频选股因子效果的影响,结合中国产业指数强化组合的实证验证,为量化因子构建提供了创新思路和实践指导,具有一定的理论价值与实际应用意义。风险提示明确,方法论严谨,是高频量化研究中的重要参考资料。

报告