`

从基金持仓行为到股票关联网络

创建于 更新于

摘要

本报告基于基金共同持仓行为构建股票关联网络,提出关联网络牵引因子Traction20d,验证其因子稳定性和选股能力。研究发现基金共同持仓显著提升股票涨跌关联度,同行业股票关联度更高。Traction20d因子在2013-2021年回测表现稳健,多空组合年化收益14.3%,最大回撤6.06%,行业中性处理后与常见因子相关性较低,适用于不同选股域,在沪深300、 中证500等指数覆盖率高,体现良好的投资判断价值[page::0][page::4][page::7][page::8][page::9]。

速读内容

  • 基金持仓股票池从2013年Q2起大幅扩张,2021年Q2维持约1500只股票,基金数量显著增多。持仓偏向大市值,87%市值低于500亿,行业集中在医药生物、电子、化工等[page::2][page::3]。



  • 基金共同持仓股票的日收益R方均值(15.05%)显著高于单基金持仓的日收益R方均值(14.07%),78.13%的时间内共同持仓的关联度更高,显著体现管理人认知和股东协同行为影响[page::4]。

  • 构建基金持仓股票关联度指标,利用持仓市值与成交额比例衡量机构拥挤度,并将同一基金对两只股票的较小拥挤度累加形成两只股票的关联度指数,成功构建局部关联网络[page::5]。


  • 关联度指标在股票市值分组上无显著差异,但同行业股票间关联度显著高于不同行业,说明行业背景是关联关系的重要影响因素[page::6]。


  • 验证关联度指标的有效性显示,股票间涨跌R方随关联度提升而升高,最高关联度组的R方均值(16.96%)较共同持仓和基金持仓均值提升13%-21%[page::6][page::7]。



  • 构建关联网络牵引因子Traction20d,基于股票与关联系数乘以关联股票alpha收益的加权平均,剔除自身alpha和行业因素,捕捉股票补涨行情锚定效应。因子与常见因子相关性较低,呈较好的独立性[page::7]。

  • Traction20d因子回测(2013.07-2021.08)显示,5分组表现明显分化,多头年化收益17.1%,多头换手率69.5%,收益波动比0.61,多空组合年化收益14.3%,年化IR 2.6,最大回撤6.06%,胜率72.6%[page::8][page::9]。


  • 与等强度牵引因子对比,加入关联度权重显著提升因子选股效果,年化收益率提升至14.3%,年化IR提升至2.6,体现关联度指标的有效性[page::9]。

  • Traction20d因子分别应用于全市场及沪深300、中证500、中证1000等不同选股域,全市场覆盖度、年化IR最高,沪深300覆盖度90%、年化IR达1.4,因子在不同行业表现差异大,但与标准因子相关性均保持低水平,适用范围广[page::9][page::10]。


深度阅读

金融工程专题报告《从基金持仓行为到股票关联网络》详尽分析报告



---

1. 元数据与概览



报告标题:《从基金持仓行为到股票关联网络》
作者及团队:金融工程研究团队,首席分析师魏建榕,分析师张翔、傅开波、高鹏,多名研究员参与
发布日期:2021年10月2日
发布机构:开源证券研究所
研究主题:基于基金持仓行为构建股票关联网络,探讨股票间的涨跌关联性及其对选股因子的应用效果。

核心论点及目标:
报告创新性地从基金共同持仓角度构建股票关联度指标,揭示基金持仓者对股票间关联性的影响机制,并据此设计关联网络牵引因子Traction20d,实现了因子化选股中的稳定超额收益。作者证明基金共同持仓股票的涨跌关联度显著高于一般股票,关联网络能够有效刻画股票价格的牵引效应,所构建因子在各大选股域均表现出不俗的投资价值,年化收益和信息比率(IR)均达较高水平,适用于不同规模的股票池。风险提示则指出该模型基于历史数据,未来市场可能出现较大变化影响预测有效性。

---

2. 逐节深度解读



2.1 基金共同持仓行为是股票关联性的关键来源


  • 关键论点:

股票关联网络研究传统上基于价格波动、成交量等市场数据,而本报告突破性地从基金持仓视角出发,提出基金共同持仓行为是构成股票关联性的主要来源。
  • 支撑逻辑:

- 基金管理人认知层面:基金经理通过持仓体现其对股票的看法,两只股票若被同一基金管理人选入,反映其在某些基本面或风格特征上存在共性。
- 股东协同行动层面:共同持股导致股东结构重叠,共享信息和资金流动,从行为上加剧价格的联动。
  • 关键数据点与结论:

- 公募基金规模及持仓股票数量自2013Q2起快速增长,股票池量从1000只跃升至1500只以上[page::2]。
- 基金持仓偏好市值较大股票,87%持仓市值集中于500亿以下,较市场整体93%低,表明基金偏大盘[page::3]。
- 基金持仓集中于医药生物、电子、化工等行业,体现行业倾向性[page::3]。
  • 指标体现:

基金共同持仓的股票日收益率R方(关联度)均值为15.05%,显著高于所有基金持仓股票对的14.07%,在32个季度中有超过78%的时间共同持仓股票关联度更高,显著表明基金共同持仓加深股票间的价格联动[page::4]。
  • 图表深度解读:


- 图1(基金数与持仓股票数变化)显示基金数量和持仓股票数自2002年至2021年均呈现拉升趋势,2013年Q2后持仓股票数加速增长,反映市场对基金投资的参与度持续提升[page::2]。
- 图5(基金共同持仓股票R方更高)中红色条(共同持仓R方均值)在大多数季度位于蓝色条(基金持仓R方均值)之上,直观证明基金共同持仓增强了股票间的收益相关性[page::4]。

---

2.2 用基金持仓数据构建股票关联度指标


  • 论点总结:

为量化基金共同持仓对股票关联性的影响,报告设计了一种结合基金持仓市值与成交额的关联度指标,进一步映射为股票间的关联强弱。
  • 方法论:

- 计算每只基金在不同股票的持仓市值(H)与该股近期成交额(AMT)之比,即机构拥挤度(I = H/AMT),体现基金影响力度。
- 对任意两只股票a和b,于同一基金下取两股票拥挤度的最小值作为两股间该基金贡献的关联强度。
- 对该股票对所有基金贡献的关联强度求和即为关联度指标Kab。
  • 逻辑说明:

此设计既体现了基金对个股权重,也考虑成交额对价格弹性的约束,合成指标更科学衡量股票间共同被基金持仓带来的价格联动潜力。
  • 关键图表分析:


- 图6(关联度指标构建示意图)形象展示了多基金对两只股票间关联度贡献的累加过程,明确各股票节点及连边权重计算方式[page::5]。
- 图7(关联网络预览图)展示基于该指标构建的局部股票网络,节点大小反映股票权重,线条粗细表示关联强弱,茅台、五粮液等连线密集且粗壮,体现高度关联性[page::5]。

---

2.3 关联度指标的统计特征与检验


  • 统计发现:

关联度指标与股票市值大小无显著相关性,说明基金持仓共同影响跨越小盘和大盘股票;而同行业股票间关联度均值高于不同行业股票,行业归属成为关联度的重要影响因素[page::6]。
  • 验证关联度指标的有效性:

报告将股票关联网络中与一只股票关联度较高的股票分组,验证不同关联度分组的股票间收益率次季度R方的差异,发现关联度从最低组到最高组的R方均值有明显提升(从14.92%升至16.96%),验证了更高关联度对应更强价格联动[page::6]。
  • 比较提升显著性:

最高关联度组股票收益R方比基金共同持仓组高出13%,比基金持仓组高出21%,且胜率均达100%,显示关联度指标的强判别力[page::7]。
  • 核心图表解读:


- 图8(关联度指标市值无暴露)显示不同市值分组的关联度指标曲线波动趋势大致重叠,无明显趋势性差异[page::6]。
- 图9(同行业股票关联度更高)蓝线(同行业)明显高于红线(不同行业),验证行业共性对股票关联性有显著贡献[page::6]。
- 图10(关联度指标与R方关系)柱状图展示关联度分组与下一季度R方均值的正相关关系[page::6]。
- 图11与图12进一步对照基金持仓和共同持仓的R方均值,显示关联度指标最高组表现均优于现有基金持仓基础[page::7]。

---

2.4 关联网络牵引因子(Traction20d)构建及表现


  • 核心思想:

利用股票关联度网络考察关联股票之间涨跌幅的传导效应,构建因子反映当月某股票相较于其关联股票涨幅是否存在补涨预期。
  • 建设步骤(表1总结):

1. 计算过去20日内所有股票涨跌幅中位数作为市场基准。
2. 对每只股票计算其所有关联股票的超额(相对市场)涨跌幅,构成关联股票alpha。
3. 结合关联度权重,将关联股票alpha传导至目标股票,得出alpha锚定值。
4. 取所有关联股票锚定值均值为目标股票原始因子值。
5. 剔除自身alpha和行业效应,得到行业中性alpha中性因子Traction20d。
  • 因子相关性分析:

原始因子与动量因子表现出明显正相关(21.46%),剔除alpha效应后与动量因子转为负相关(-13%左右),且与其他主流因子均相关性低,表明因子较为独立,有助增强多因子模型多样性[page::7][page::8]。
  • 行业分布差异:

纺织服装、轻工制造等行业因子值较高,钢铁、采掘等偏低,促使因子进行行业中性化处理以消除行业偏差效应[page::8]。
  • 实证表现:

- RankIC为3.84%,RankICIR 2.6,表明信息比率显著,因子稳定且有效。
- 多头组年化收益17.1%,换手率约70%,收益波动比0.61,代表策略兼顾收益和风险。
- 多空组合年化收益14.3%,年化IR 2.6,最大回撤仅6.06%,胜率高达72.6%。
- 与“等强度牵引因子”比较(仅考虑关联关系,不计权重),Traction20d因子收益更优,验证了关联度指标的增益价值。
  • 重要图表解读:


- 图13(因子相关性矩阵)清晰展示原始因子与剔除alpha因子间的相关变化[page::8]。
- 图14(行业因子值差异)柱状图直观体现不同行业间因子偏好[page::8]。
- 图15(因子净值曲线分组)五分组曲线清晰分化,顶部组远超底部组,年化17.1%收益突出[page::8]。
- 图16(多空组合表现)多空组合净值平稳上涨,最大回撤有限,胜率高,显示因子具备实用投资价值[page::9]。
- 图17(加入关联度权重的选股效果提升) Traction20d(红线)相较等强度牵引因子(蓝线)表现更优[page::9]。

---

2.5 不同选股域上的应用效果对比


  • 分别在全市场、沪深300、中证500、中证1000四个股票池应用Traction20d因子,构建五分组多空组合。
  • 覆盖度体现基金持仓股票在不同指数内的渗透:


- 沪深300覆盖度约90%,中证500约70%,中证1000约40%。
- 因子在全市场表现最稳健,年化IR 2.6;沪深300多空组合年化IR 1.4;中证500、1000低于1.5[page::9]。
  • 因子相关性在不同选股域均保持较低水平,进一步确认因子的稳定性和独立性。
  • 图表深度:


- 图18(不同选股域多空组合表现)清晰显示大盘指数(沪深300)组合表现优于中证500/1000,且全市场组合在因子收益与风险比上更具优势[page::9]。
- 表2(不同选股域因子相关性)展现不同市场环境下因子与size、turnover、volatility等常见因子的微弱相关性,支持因子多样化价值[page::9-10]。

---

2.6 风险提示


  • 模型基于历史行情和基金持仓数据,未来市场若经历结构性变化,模型和因子表现可能产生显著偏差。
  • 报告明确警示投资者审慎依赖历史测试结果,适当评估实盘应用风险[page::0][page::10]。


---

3. 图表深度解读综述



报告配备丰富的图表辅助论证:
  • 基金持仓股票池数量及基金数量走势图(图1)体现样本扩展性和研究基础。

- 市值分布(图2)和行业分布(图3)说明基金持仓结构偏好,为关联性分析提供背景。
  • 指数覆盖度趋势图(图4)说明基金持仓与主流指数的匹配度,支持因子应 用广度。

- 股票间收益R方比较柱状图(图5,以及11、12)多角度验证基金共同持仓增强关联性。
  • 关联度指标构建流程示意(图6)与关联网络局部实例图(图7)为方法提供直观说明。

- 关联指标与市值/行业关系趋势线图(图8、9)揭示关联特征,行业影响显著。
  • 高关联度组股票间次季度收益R方柱状展示(图10)验证指标区分度。

- 因子与常见因子相关性矩阵表(图13)、行业差异柱状图(图14)支持因子独立性分析。
  • Traction20d因子分组净值曲线(图15)、多空组合表现及回撤(图16)直观呈现因子投资价值和风险控制。

- 不同选股域多空组合表现对比(图18)确认因子的适用范围和效益差异。

整体图表齐全,数据丰富,有效支撑了报告的逻辑链条和结论推导。

---

4. 估值分析



报告主体为因子研究和市场行为分析,无直接传统的公司估值模型与目标价,因此不涉及DCF、市盈率等估值方法解析。焦点集中于量化因子构建、验证及多维度投资性能评估。

---

5. 风险因素评估


  • 主要风险:

- 历史数据驱动的模型存在未来失效可能,尤其市场结构、基金行为发生重大改变时。
- 基金持仓披露频率和数据质量可能影响因子的及时性和准确性。
- 行业分布差异大,因子表现可能受行业周期波动影响。
- 选股域因覆盖率不同,因子应用效果具异质性。
  • 缓解措施:报告未具体给出对冲或防范策略,但通过多选股域验证及因子中性化处理,增强因子稳定性和适用性,间接降低了风险。


---

6. 批判性视角与细微差别


  • 潜在偏见:

- 依赖基金持仓作为关联性的主要来源,忽视了其他市场参与者(如社保、券商、私募等)持仓及其影响,可能导致关联网络的单一视角。
- 关联度指标计算基于过去20个交易日成交额均值,短期成交波动或异常可能影响指标稳定性。
- 因子表现主要通过历史回测验证,缺乏真实交易执行统计,可能低估了交易成本与市场摩擦影响。
- 报告未详细披露样本剔除规则及极端行情的影响,存在数据“幸存者偏差”风险。
  • 细节注意:

- 因子与动量等传统因子存在一定负相关,应用时需要考虑多因子间的组合关系。
- 不同行业因子预期差异较大,需结合行业景气调整因子权重。
- 股价涨跌的传导路径简单依托基金持仓重合,实际价格联动还可能涉及宏观经济、新闻传播及交易行为同步等多维因素。

---

7. 结论性综合



本报告创新地利用基金持仓行为视角构建股票关联度指标,明确指出基金共同持仓是股票涨跌关联关系的重要来源。基于详细的基金持仓数据和成交额,设计了合理的量化指标衡量股票间的关联强度,通过对比分析发现,高关联度股票间的收益联动明显优于普通基金持仓股票。

关联网络牵引因子Traction20d的构建过程科学严谨,结合过去20日的累计涨跌幅和股票间的关联度,通过逐步剔除行业及自身alpha效应获得独立因子,表现出较好稳定性和独立性。多时段回测显示,Traction20d因子具有显著的选股能力,年化信息比率达到2.6,年化收益率超过14%,回撤控制良好,胜率近73%,展现出良好的实战应用潜力。

不同股票池间的因子表现差异反映出基金持仓数据的覆盖不同,且行业因素和市值因素在关联网络构建中的显著性区别,说明该因子结合了行业与规模因素,适用范围较广。其与其他常用因子的低相关性提供了多因子模型的增值潜力。

风险提示突出历史数据模型依赖的局限,提醒投资者关注市场环境变迁可能带来的模型失效。整体报告结构严谨,数据详实,研究角度新颖,为股票关联性研究和量化选股提供了有价值的视角和工具。

---

附:重要图表标注



图1:基金数量与持仓股票数(双轴图表),展示基金数(左轴)与持仓股票数(右轴)从2002-2021年持续增长趋势,2013年之后持仓股票数量增速显著。
[page::2]

图2:持仓股票市值分布(柱状图),显示持仓股票多集中于100-500亿市值区间,占比43%左右。
[page::3]

图3:持仓股票行业分布(饼图),医药、生物、电子、化工行业占据相对较大比例。
[page::3]

图4:覆盖度趋势(折线图),沪深300基金持仓股票覆盖度稳定高于90%,中证500、1000覆盖度较低。
[page::3]

图5:基金共同持仓股票日收益R方均值较基金持仓整体较高(柱状图),多数季度蓝柱低于红柱。
[page::4]

图6:关联度指标构建示意图,图示三只基金对股票的共同持仓及关联度指标累积过程。
[page::5]

图7:关联网络预览局部图,节点为样本股票,边粗细反映关联强弱,体现关联网络结构。
[page::5]

图8:关联度指标在市值上无显著差异(多折线图),不同市值组走势相近。
[page::6]

图9:同行业股票间关联度明显高于不同行业(折线图),蓝色线条高于红色线条。
[page::6]

图10:关联度指标分组对应股票间下一季度收益R方均值(柱状图),呈正相关走势。
[page::6]

图11:关联度最高组与基金共同持仓股票收益R方对比(柱状图)[page::7]

图12:关联度最高组与基金持仓股票收益R方对比(柱状图)[page::7]

图14:行业间因子值差异柱状图,显示行业表现分化较大。
[page::8]

图15:Traction20d因子5分组净值曲线分化明显,最高组收益达17.1%,数据直观展示分组效果。
[page::8]

图16:因子多空组合净值及最大回撤表现,年化收益14.3%,最大回撤仅6.06%
[page::9]

图17:加权关联度牵引因子显著优于等强度牵引因子多空组合表现。
[page::9]

图18:不同选股域中Traction20d多空组合表现比较,沪深300年化IR为1.4。
[page::9]

---

总结



本报告系统揭示了基金持仓行为对构建股票关联网络的关键作用,提出并验证了基于基金持仓与成交额的股票关联度指标。通过关联网络,报告实现了既有创新又实用的牵引因子Traction20d的建设,显著提升了因子化选股的预测效能和收益表现。报告的数据充分、分析严谨,为量化研究提供了一条新的思路与方法路径。在实际应用中,尽管存在历史依赖与行业偏向的风险,该方法仍为基金经理和量化投资者提供有益借鉴,有利于发掘基于投资者行为的股票间动态关系及其策略价值。

---

【全文引用页码】[page::0,2,3,4,5,6,7,8,9,10]

报告