`

订单流不平衡性(OFI)的应用初探——因子手工作坊系列(2)

创建于 更新于

摘要

本文基于快照级3秒高频数据,通过聚合前十档买卖委托信息,构建了分钟及日度级订单流不平衡性(OFI)因子,并探索其对短期(1分钟、5分钟)和中长期(10天)股票收益率的预测能力。研究发现,OFI因子短期负相关于未来收益率,且最优档预测能力弱于其他档位;通过主成分分析及深度学习模型进一步低频化处理后,因子的稳定性与有效性显著提升,实现了对未来10天收益率的较强预测力,尤其是结合GRU模型提取十档ofi信息的深度学习因子表现最佳,年化多空收益率超26%。该因子与流动性呈中度负相关,风险中性化后仍保持一定选股能力,适合机构投资者低频应用 [page::0][page::11][page::12][page::9]

速读内容

  • 订单流不平衡性定义及计算 [page::1][page::2]:

- 订单流不平衡性(OFI)由买卖挂单委托量差值构成,标准化后称为ofi,刻画市场买卖力量的强弱对比。
- 以十档买卖报价和委托量快照(3秒更新)为数据基础,仅连续竞价时段计算。
  • 高频订单流不平衡性因子预测短期价格变动 [page::3][page::4]:

| 订单档位 | 未来1分钟收益率IC | 未来5分钟收益率IC |
|----------|-----------------|-----------------|
| ofi1(最优档) | 0.02 | -0.05 |
| ofi
2 | -0.03 | -0.07 |
| ofi3 | -0.04 | -0.07 |
| ... | -0.04 | -0.07 |
- 结果表明,订单买压越小的股票短期内收益率越高,最优档预测能力最弱,5分钟预测效果优于1分钟。

  • 日内时段差异明显,早盘(开盘后1小时)因子表现弱 [page::5]:



- 成交量和波动率集中于开盘初期,可能导致因子信号被噪音淹没,投资者分歧大。
  • 低频化及PCA提取信息 [page::5][page::6]:

- 利用主成分分析将十档ofi压缩为5个主成分,第一主成分能解释平均61.3%的方差。
| 年份 | ofi
integrated1 | ofiintegrated2 | ofiintegrated3 | ofiintegrated4 | ofiintegrated5 | 合计方差解释 |
|------|-----------------|-----------------|-----------------|-----------------|-----------------|--------------|
| 2016 | 58.9% | 8.8% | 6.6% | 5.5% | 4.7% | 84.6% |
| ... | ... | ... | ... | ... | ... | ... |
| 平均 | 61.3% | 8.8% | 6.5% | 5.3% | 4.4% | 86.3% |
  • 低频统计量因子与未来10天收益率的相关性 [page::6][page::7]:

| 因子类别 | 均值 | 标准差 | 偏度 | 峰度 |
|-----------------|--------|----------|--------|--------|
| ofi_integrated1 | 0.015 | -0.077 | -0.012 | 0.054 |
- 标准差和峰度与未来十天收益率的IC绝对值最大,峰度IC最大为0.054,表现较好且较为稳定。
- 标准差因子IC长期为负,反映波动越大未来收益率越低。
  • 机器学习GRU模型提升低频因子表现 [page::8][page::9]:

- 输入特征:十档原始OFI、十档ofi、集成ofi1及集成ofi1-5,利用多种GRU结构训练滚动更新模型。
- 训练结果表明,去噪音后的ofi输入优于原始OFI,十档ofi整体输入的IC和ICIR最高,分别达到0.075和0.579,胜率71.8%。
  • 低频因子组合收益表现及风险中性化分析 [page::9][page::10][page::11]:

- 十档ofi深度学习因子年化多空收益率26.57%,超额收益7.88%,中性化后仍有11.18%的超额收益。
- 在不同指数成分股中,因子对中小盘股(如中证1000)表现最佳,年化多空收益达25.73%。
  • 因子与常见Barra风险因子相关性较低 [page::11]:

| Barra风险因子 | 相关系数 |
|--------------|-----------|
| 动量 | -0.09 |
| 市值 | -0.20 |
| 成长 | -0.05 |
| 流动性 | -0.33 |
- 因子与流动性相关最高,负相关性显示因子捕捉除流动性外独立信息。

深度阅读

订单流不平衡性(OFI)的应用初探 — 详尽分析报告



---

一、元数据与报告概览


  • 报告标题: 订单流不平衡性(OFI)的应用初探——因子手工作坊系列(2)

- 作者: 西部量化团队,分析师冯佳睿
  • 发布机构: 西部证券研究发展中心

- 发布日期: 2024年11月29日
  • 研究对象: 主要聚焦A股市场中的订单流不平衡性因子,利用高频交易数据,探索订单流不平衡(OFI)对股票未来短期及中长期收益的预测能力及其低频应用

- 核心内容与结论:
- 构建并标准化订单流不平衡性因子(ofi),验证其对未来1分钟、5分钟及10天收益率的预测能力。
- 结合主成分分析(PCA)与机器学习(GRU模型)对高频OFI因子进行低频化处理,强化信号提取。
- 发现OFI因子具备较好的中长线选股能力,并且深度学习方法相较传统统计方法更能提升因子有效性。
- 提示存在模型失效及市场风格变化的风险。[page::0, 12]

---

二、逐节深度解读



2.1 订单流不平衡性的定义与计算


  • 关键论点:

利用快照数据(3秒)上股票十档买卖委托挂单的变动量,测度买卖双方力量,通过差值获得订单流不平衡性(OFI)。
  • 计算公式:

对第m档买卖挂单流量分别定义bOF和aOF,价格变动条件决定对买卖量的正负署名:
- 买方订单流(bOF)取决于当前买价是否高于、等于或低于前一时刻买价,分三种情形赋值:
- 价格上涨,新增挂单量为正
- 价格持平,挂单量差为正或负
- 价格下降,全部挂单量视为撤单(负值)
- 卖方订单流(aOF)定义对称。
  • OFI定义为:

$OFIt^m = bOFt^m - aOFt^m$,正值代表买方压力较大,负值为卖方压力较大。
  • 标准化处理:

为解决不同股票及时间挂单量差异较大问题,OFI除以对应时点的平均挂单深度 $Q
t^{10}$,得到标准化后的ofi。
  • 时间窗口:

以1分钟为时间间隔,对订单流进行聚合处理,交易时段限定于连续竞价(9:30-11:30,13:00-14:57),排除集合竞价期。
  • 数据来源及样本:

A股沪深Level-2数据、Wind数据库,快照频率3秒,涵盖十档买卖档位。
  • 分析逻辑:

挂单量看似原始指标,结合价格变动判断订单流量的动态变化,捕捉买卖力量的即时变化与平衡,既体现了微观结构,也刻画了投资者心理偏好。[page::1, 2]

2.2 高频视角下的订单流不平衡性与短期股价预测


  • 研究从1分钟、5分钟收益率的预测能力入手,使用ofi在不同档位的截面相关系数(IC)作为指标衡量因子有效性。

- 核心发现:
1. 除最优档1档外,ofi与未来1分钟、5分钟收益率呈显著负相关。即买压越小的股票未来短期收益率反而越高。这一逆向关系解释为:买压低可能暗示市价买单占比较高,买入需求急切,利好价格上涨。买压过大可能代表投资者在挂单限制价格买入,表示当前价格认可度不高,短期内价格更易下行。
2. 最优档(ofi1)的预测效果不及其他档位,原因推测为最优档更受高频交易和投资者短期情绪干扰,波动较大,信息含量较低;次档及以后档位订单更贴近真实交易意愿。
3. 5分钟收益率的预测IC高于1分钟,表明适度延长预测窗口有助于过滤高频噪音,提取更有效信号。
  • 历年表现差异(2016-2024): 1分钟预测中,近年来尤其2022年起,ofi1预测能力由正转负,但其他档位的预测能力有所增强。5分钟预测能力从2021年开始有逐步弱化的趋势,推断指向市场参与形态变化(算法交易及量化策略的广泛应用)。

- 日内分时表现: 开盘首小时ofi因子表现相对较弱,原因系该阶段信息密集释放,市场波动剧烈,富有信息优势的投资者早盘更活跃,使得挂单行为及OFI变化更多反映真实交易意愿而非价格预期,削弱了因子的选股能力。之后时间段因子表现更为稳定。
  • 表格和图解说明: 表1及分年度表2和3清晰展示不同档位ofi对短期收益的预测IC及其年度变化,图1-4生动展现日内时段IC均值、成交量占比与收益率波动率趋势。[page::3, 4, 5]


2.3 订单流不平衡性的低频化应用


  • 目的: 高频OFI因子虽有效,但受限机构资金容量及买卖成本,需将高频信号降频,转换成日度、周度等低频因子,便于大规模资产管理应用。

- 方法:
- 主成分分析(PCA):通过PCA提取十档ofi的主要成分,减维降噪。研究中保留前五主成分,解释累计86%的方差,以集成ofi序列作为整体订单簿买卖力量的代表。
- 统计量聚合:计算均值、标准差、偏度、峰度等统计量,获得观察不同交易日内订单流不平衡的多维信息。
  • 结果分析:

- 集成ofi第一主成分(ofi_integrated1)对标准差、偏度、峰度的因子IC绝对值最大,显著优于单档ofi,说明主成分方法更能整合有效信息。
- 均值和峰度与未来10天收益率正相关,意指买压强、交易集中度高(峰度高)股票往往后续表现好。
- 标准差与未来收益率负相关,表明日内买卖力量波动大代表投资者分歧大,未来可能下跌。
- 偏度效果不显著。
- 分年度分析显示这两类因子虽存在波动,但表现尚算稳定,IR值和胜率均合理。
  • 图表说明: 表4为年度PCA方差比例,表5为统计量因子IC,表6为分年度标准差与峰度因子表现。[page::6, 7]


2.4 机器学习增强低频因子表现


  • 动机: 传统统计聚合虽奏效,但在年际稳定性和极端年份表现上不尽如人意,深度学习模型有望更灵活捕捉非线性关系,提升信号提纯和预测能力。

- 模型设定:
- 使用GRU(门控循环单元)及其变体( Double-GRU、Attention GRU、CNN-GRU )对经过预处理、15分钟聚合的OFI序列进行训练。
- 输入特征包括四类:十档原始OFI、十档标准化ofi、集成ofi1主成分、以及集成ofi1-5主成分组合。
- 训练采用滚动训练,每周更新,覆盖48-72周数据,标签为未来11个交易日收盘价涨跌幅。
  • 结果:

1. 原始未预处理OFI作为输入表现最差,凸显特征预处理重要性。
2. 集成ofi1表现较好,说明PCA降维有利于信号提纯。
3. 加入更多集成主成分ofi1-5提升了模型表现,说明多维信号综合利用更有效。
4. 采用全部十档ofi作为输入特征的模型效果最佳,全年IC可达0.075,ICIR 0.579,符合行业优秀选股因子水平,且胜率高达71.8%。
  • 收益表现: 深度学习因子多空组合年化收益超过25%,多头超额收益超过7%,尤其在中小盘指数中的表现尤为突出。

- 图表及数据: 表7为模型参数说明,表8为IC比较,表9为选股收益表现,图5-10详见不同因子五分组收益率与净值走势,图11展现因子在沪深300、中证500、800、1000不同指数内表现差异。[page::7, 8, 9, 10]

2.5 风险分析及因子稳健性


  • 明确提示风险包括:

- 模型失效风险:历史数据有效性不代表未来持续有效,市场和交易行为变化均可能导致模型失效。
- 市场风格变化风险:市场参与者结构、策略偏好改变,影响因子表现。
  • 进一步考察因子与主流Barra风险因子相关性,发现最大相关为负向流动性因子(-0.33),以及与残差波动率、市值相关系数均在±0.2区间,表明因子部分补充流动性风险,部分独立于传统风险因子。

- 风险中性化即剔除这些风险因子后重跑测试,IC下降至0.025,收益率及胜率降低,表明因子与风险因子存在一定重叠,但仍保有一定剩余选股能力。
  • 表10、11和相关段落详细说明了因子与主流风险因子间的关系以及风险中性化效果。[page::10, 11]


---

三、图表深度解读



---

3.1 订单流差异及IC分布图(图1-4)


  • 图1与图2: 显示不同日内30分钟时段,十档ofi因子预测未来1分钟与5分钟收益率的平均IC变化。

- IC在开盘后1小时最低,中后时段趋于平稳,且预测五分钟收益时IC整体更负,表明短期内噪声更大,成效有限。
- 图中的基准线为2-7档ofi的平均IC,稳定在-0.03~-0.07区间。
  • 图3与图4: 展现8个30分钟时段的成交量占比和收益率波动率均呈明显L型,开盘前两档时段明显高于后续段,反映早盘交易活跃程度及波动性高,契合因子低效原因的解释。


3.2 IC值统计分析表(表1-3, 5-6)


  • 表1: 比较不同档位ofi对未来1分钟和5分钟收益率的IC,显示大部分档位是负相关,且5分钟预测能力强于1分钟。

- 表2和表3: 分年度详细IC表现,验证长期趋势和不同时间段的稳定性,显示近年来1分钟预测能力有所波动,5分钟则整体趋弱。
  • 表5: 各档位及集成ofi统计量指标(均值、标准差、偏度、峰度)与未来10天收益率的IC。峰度、标准差因子表现最佳,尤其集成ofi第一主成分。

- 表6: 分年度集成ofi1标准差和峰度因子的IC、IR和胜率,反映因子稳定性及预期收益质量。

3.3 机器学习模型表现(表7-9)


  • 表7: GRU模型参数和设定。

- 表8: 深度学习因子IC对比,十档ofi作为输入时IC最高,说明保留多档信息输出提升效果。
  • 表9: 深度学习因子的收益率表现,十档ofi深度学习因子年化收益超过26%,超额收益近8%,表现优于集成主成分及简单统计量因子。


3.4 不同指数中表现及风险相关性(图11、表10-11)


  • 图11: 十档ofi深度学习因子在不同指数成分股中的多空组合收益差异,中证1000(小盘)表现最佳,显示因子对小盘股选股能力更强。

- 表10: 因子与Barra风险因子相关系数,显示与流动性和残差波动率负相关,反映因子在一定程度上捕捉了流动性风险因子反面。
  • 表11: 风险因子中性化后,因子IC和收益下滑但仍具一定剩余选股能力。


---

四、估值分析



本报告主要聚焦因子构建与验证,不涉及公司或证券的估值分析,因此无DCF、P/E或其他估值模型的内容。

---

五、风险因素评估


  • 模型失效风险: 历史数据结果不保证未来有效性,市场结构、参与者行为、监管变革等均可能导致模型表现失准。

- 市场风格变化风险: 量化投资、算法交易等发展改变了订单簿形态和交易动态,从2021年开始短期预测效能已有波动。
  • 因子风险重叠: 部分因子信号与流动性、残差波动率等传统风险因子相关,风险中性化后效能下降,提示需关注风险敞口。

- 选股容量及交易成本: 高频信号用于规模庞大资金时受限较多,低频因子的池化策略为解决之道。
  • 风险管理措施主要是引入主成分分析降噪与深度学习增强信号处理,但未涉及明确的风险缓释策略。[page::0, 12]


---

六、批判性视角与细微差别


  • 指标信号的直觉逆反: 订单流买压越大未来短期收益越低的结论,初看违背常规买卖力量预期,解释合理但需警惕特殊市场行为与策略操纵的影响。

- 最优档预测力弱: 说明最热档位更受高频交易和情绪影响,提出更多探索间接信号或异质策略的必要。
  • 数据样本与市场环境: 研究基于A股9年数据,市场参与者结构和交易机制显著变化,尤其近年来的算法交易增多,可能影响模型长期稳定性。

- 降维与机器学习: PCA虽有效节省信息,但方差解释率仅60%左右,深度学习虽提升因子效果,但其黑盒特性及稳定性尚需持续观察。
  • 风险中性化影响显著: 因子与风险因子相关性说明OFI并非绝对新信息,风险剔除后效力明显,提示有效信号有限且受市场风险因子框架制约。

- 交易成本与交易限制: 高频因子在低交易成本环境中有效,实际执行时须权衡容量与成本,本报告未具体讨论策略实施细节。
  • 报告整体细致客观,但部分结论基于统计相关推断,因果关系及机制尚需未来深入研究或实证佐证。[page::3, 12]


---

七、结论性综合



本报告系统地构建、分析了A股市场基于3秒级盘口信息计算的订单流不平衡性因子(OFI)及其标准化版本ofi,主要贡献及发现包括:
  1. OFI因子构建与定义清晰,依托挂单流量与价格变动综合度量买卖力量,并对不同档位进行剖析,创新性地利用快照级别高频数据为研究基础。
  2. 高频OFI因子对未来1分钟和5分钟股票收益率具显著预测能力,其中买压小反而预示收益更高,且2档及以后档位信号优于最优档。5分钟预测效果优于1分钟,反映短期市场噪声的有效过滤。
  3. 日内分时因子表现揭示了市场调整与参与者结构对信号的影响,早盘信息释放期OFI信号有效性较弱,验证市场微观结构与因子效用相关的复杂性。
  4. 低频化实践中,主成分分析有效浓缩信息,产出集成ofi序列,兼顾维度压缩与信息保存,统计量(均值、标准差、偏度、峰度)衍生的日度因子对未来10天收益具一定指导力,尤以标准差、峰度因子为佳。
  5. 深度学习GRU模型的引入显著强化了低频化因子的收益预测能力和稳定性,十档ofi作为输入特征时表现最佳,证明了多档位信息融合与非线性处理的优势。
  6. 因子表现存在一定市场风格依赖性和风险重叠,风险中性化测试显示因子选股能力下降,但依然具备超额收益的剩余能力。
  7. 因子实证收益在不同规模股票中的异质性显著,因子在中小盘(中证1000)股票中的表现尤为突出,提示应用时应考虑市场细分和组合结构。
  8. 风险提示明确,模型失效和市场风格变化为主要潜在隐患
  9. 图表和数据充分支持报告论断,统计检验严谨,周期跨度广阔,增加了研究说服力。


综上,订单流不平衡性的ofi因子及其低频降维版本为量化投资提供了一种基于微观市场结构的创新因子维度。结合机器学习进一步提升选股能力,具备较高的实用价值和理论贡献。但需要持续关注模型稳定性、市场环境演变与实施交易成本的影响。该报告对OFI因子中国市场的应用进行了全面详尽的探讨,对量化研究与策略开发具有较强的指导意义。[page::0-12]

---

附:报告重要图表示例


  • 表1:ofi因子的IC(未来1分、5分预测)

- 表5:ofi及集成ofi统计量与未来10天收益率IC
  • 表8:机器学习模型低频化因子IC表现

- 图1-4:ofi分时段IC与成交量波动展示
  • 图5-10:低频化因子分组年化收益率及净值

- 图11:十一档ofi深度学习因子在主要指数成分股中表现
  • 表10:十档ofi深度学习因子与Barra因子相关性

- 表11:风险中性化后因子选股表现

(图表请参见原文相关页码)[page::3,5,6,8-10]

---

整体评价:报告结构严谨,论据充分,数据支撑细致深刻。文中对高频微观交易数据的金融工程运用值得行业及学术界关注,尤其在将高频信号有效转化为低频因子方面取得显著成果。析述客观,兼备理论与实证,具有推广应用价值。

报告