`

新闻舆情分析的 HAN 网络选股

创建于 更新于

摘要

本文提出基于混合注意力机制的HAN网络,对沪深300股票池个股的多条新闻舆情进行文本挖掘,实现短期股价走势预测。HAN网络通过词语、新闻及时间层次注意力模块模仿人类对新闻的注意力分配,有效提取关键信息。实证结果表明,基于HAN网络的TopK-Dropout选股策略年化超额收益达15.96%,注意力机制显著提升模型表现,其中新闻和时间注意力对收益贡献最大。注意力权重分析显示模型对高信噪比词语、直接相关新闻及近期新闻赋予更高权重,体现较好解释性。HAN网络为文本舆情因子构建提供了有效路径,但模型仍有提升空间,尤其是在金融领域词向量和时间注意力分布方面。[page::0][page::3][page::4][page::11][page::15][page::17][page::21][page::24]

速读内容

  • HAN网络结构及注意力机制 [page::4][page::5][page::7][page::8][page::9][page::10]:

- HAN网络包含词嵌入、词语注意力、新闻注意力、双向门控循环单元(BiGRU)、时间注意力和多层感知机等模块。
- 词语注意力捕捉新闻中关键信息词权重,新闻注意力区别不同新闻影响力,时间注意力聚焦不同日期新闻权重,BiGRU实现时间序列建模。
- 词语嵌入使用300维中文预训练词向量Chinese-Word-Vectors,体现词语相似度及上下文关系。

  • HAN网络训练与参数设置 [page::12]:

- 每条样本包含过去10个自然日、每日最多5条新闻、每条新闻词数最多200词。
- 标签为未来一个交易日涨跌分类(三分类任务),训练分批次进行,训练时每轮约200步。
- 嵌入层、注意力层和全连接层搭建在TensorFlow框架下。
  • 实证研究及选股策略设计 [page::11][page::13][page::15]:

- 基于沪深300成分股新闻数据(2015年起)构建HAN日频因子并测试其有效性。
- TopK-Dropout策略定义:每日选取前30只因子得分最高股票等权持有,每日剔除组合中得分最低股票,加入组合外最高得分股票。
- 回测区间2019-01-02至2022-03-31,手续费双边千3,策略年化超额收益达约16%。



  • 注意力机制有效性验证对照试验 [page::13][page::15][page::16][page::17]:

- 分别去除词语、新闻、时间注意力以及全部注意力四种对照组。
- 结果显示,词语注意力的去除对策略收益影响较小,仅减少约2%的超额收益。
- 新闻注意力和时间注意力的缺失导致策略几乎无超额收益,影响显著。
- 换手率实验表明Han因子选股策略的年化双边换手率约为16倍。



  • 因子IC测试及分层回测 [page::19][page::20][page::21]:

- HAN日频因子IC均值约0.015,IC_IR为0.126,显示因子有效性但强度中等。
- 分层回测显示因子多头端表现明显优于其余层,长期相对基准稳健。


  • 注意力权重分析解读 [page::21][page::22][page::23]:

- 词语注意力对高信噪比词如“符合”“利好”等赋予较高权重,对专有名词如“多晶硅”权重较低。
- 新闻注意力侧重突发性强、个股直接相关的新闻,行业或宏观点评新闻权重相对较低。
- 时间注意力展示对近10日新闻均有关注,最近日期新闻给予稍高权重,但整体差异不大,暗示模型时间注意力仍可优化。

  • 策略优缺点与未来展望 [page::24][page::25]:

- HAN网络通过混合注意力机制较好地模拟人类对个股多条新闻的关注分布,实现有效的短期涨跌预测。
- 策略多头端收益明显且稳健,注意力机制尤其是新闻层和时间层影响显著。
- 未来研究方向建议包括引入自步学习、结合BERT等上下文编码技术、完善金融领域词嵌入及提升时间注意力机制设计。

深度阅读

深度分析报告解构:新闻舆情分析的 HAN 网络选股(华泰研究,2022年4月)



---

一、元数据与概览


  • 报告标题:《新闻舆情分析的 HAN 网络选股》

- 作者/研究员:林晓明、李子钰、何康(PhD)、联系人陈伟
  • 发布机构:华泰证券股份有限公司

- 发布日期:2022年4月23日
  • 研究主题:基于混合注意力网络(HAN,Hybrid Attention Networks)的新闻舆情文本挖掘模型,用于预测沪深300成分股个股短期股价走势及构建选股策略

- 核心论点
- 利用深度学习中的注意力机制,模仿人类对新闻舆情“顺序内容依赖”与“多样化影响”的处理方式,设计了一个三层注意力结构(词语、新闻、时序)。
- 在沪深300股票池中,通过混合注意力机制网络产生的选股策略在实证中表现良好,年化超额收益达15.96%。
- 词语注意力、新闻注意力和时序注意力三个模块对模型预测性能影响不同,新闻和时间注意力模块的作用尤为关键。
  • 风险提示:由于基于深度学习的选股策略属于历史数据总结,模型可能失效,且AI模型解释能力有限,投资时需谨慎。[page::0][page::3][page::24]


---

二、逐节深度解读



2.1 研究背景


  • 传统投资数据多为结构化数据(如价格、财务指标),而“另类数据”如新闻舆情、研报、ESG等非结构化数据难以统一处理,人工智能是重要的分析手段。

- 现有舆情挖掘多停留在单条文本分析,忽视多条新闻聚合信息及时间序列影响,与投资者实际决策不符。
  • 投资者更关注高信噪比新闻(如分析师观点)而非简单的消息披露信息,为反映不同新闻的重要性差异,采用注意力机制建模优势明显。

- 本文突破点:引入混合注意力机制(词语、新闻、时间维度)对个股多日多条新闻进行深度挖掘,预测短期股价方向,实现多头端显著收益。[page::3]

2.2 HAN 混合注意力机制网络原理



模型思想


  • 模仿人类处理新闻舆情的两个原则:

- 顺序内容依赖:多个新闻的连续性信息互相印证提高预测准确性。
- 多样化影响:不同新闻及关键词对股票影响程度不同,模型赋予差异化权重。
  • HAN结构由三大层次注意力组成:

- 词语层:对单条新闻中的单词赋予不同权重,提取关键信息
- 新闻层:同一自然日多条新闻各自权重分配,聚焦重要新闻
- 时间层:各自然日新闻权重分配,重视时效性强的日期
  • 双向门控循环单元(BiGRU)用以捕捉新闻时间序列上下文信息,结合注意力层综合输出股价短期趋势预测。


模型结构


  • 图表1(原论文):展示了词嵌入层(Word Embedding)、新闻注意力、时间注意力、BiGRU及判别网络的整体架构。

- 图表2(本报告调整版):新增“词语注意力机制”,弥补原论文未结合词语层注意力的不足,增强词语间权重分配能力。
  • 任务目标:使用过去N(通常10)天的个股相关新闻,预测未来1天的股票涨跌类别,有效利用多维度新闻信息。[page::4][page::5]


2.3 词嵌入与词语注意力机制


  • 采用Word2Vec家族的词嵌入技术(Skip-gram示例详解),将中文词汇转为300维向量,既降低维度又保留词义相似性。

- 实证验证(图表3):词嵌入能够准确反映词义,比如高校、地区和券商词在二维空间中显著聚类。
  • 词语注意力机制源自机器翻译领域(图表4),为不同词语赋权,提升文本理解。

- HAN中词语注意力流程:
- 每个词向量通过神经网络得到权重计数。
- 利用softmax将权重归一化,得到注意力权重分布。
- 词向量加权求和生成新闻层面向量。
  • 图表5展示词语注意力在网络中的位置和流程。

- 该机制实现对每条新闻中关键词的聚焦,提升信噪比。[page::6][page::7][page::8]

2.4 新闻注意力机制


  • 类似词语注意力,对同一天多条新闻赋予不同权重,反映新闻本身多样化信息含量。

- 计算每条新闻的注意力权重后加权生成当天的新闻聚合向量。
  • 图表6示意新闻注意力机制结构。[page::8]


2.5 双向门控循环单元(BiGRU)


  • RNN(循环神经网络)难以捕获长期依赖,门控单元如LSTM或GRU解决梯度消失问题,GRU结构参数更少、效率更高。

- BiGRU在时间序列内既合并从过去到未来也融合从未来到过去的信息,模型能更精准捕捉时间依赖性。
  • 图表7和图表8展示GRU和BiGRU内部结构与流程。

- 说明了利用前10天新闻预测第11天股价时,第5天新闻的信息处理不违反未来数据泄漏,因其仅基于已知过去数据。[page::9]

2.6 时间注意力机制


  • 对过去N天的新闻聚合向量赋予不同权重,反映投资者对新闻时效性的关注,最近的新闻权重更高。

- 处理方式同样通过一层神经网络加softmax归一化,输出加权综合向量。
  • 图表9示意时间注意力机制。

- 经过上述层层编码与加权,最后接入多层感知机(MLP)判别网络预测股价涨跌三分类概率(上涨、下跌、平稳)。
  • 图表10显示判别网络结构(全连接层堆叠)[page::10]


2.7 HAN 网络选股实证



数据与样本


  • 新闻数据来自万得FinancialNews数据库,2015年起覆盖A股市场,保证新闻发布日期与入库日期一致以保证时效性,剔除延迟入库的数据。

- 特征构造:过去N=10天内,每天最多5条新闻,每条新闻用前200词,词向量维度300。
  • 标签为未来1天开盘价涨跌分类(涨、平、跌三类),损失函数为交叉熵。


实验设计与超参数


  • 基于tensorflow实现,Embedding层输入形状(None, 10, 5, 200, 300),网络详细结构图表12。

- 训练时每个epoch固定200步,考虑计算资源限制,实际未必遍历全样本。
  • 各注意力模块结构及超参数见图表13。


对照实验设计


  • 三注意力模块分别被“平均替代”:

- 对照组1:无词语注意力
- 对照组2:无词语&无新闻注意力
- 对照组3:无词语&无时间注意力
- 对照组4:无词语、无新闻、无时间注意力
  • 用以衡量各注意力模块对选股效果的影响。

- 具体替换理解图表14,图表15展示词语注意力替换示意。
  • 对照实验极好保证了变量单一性,科学验证注意力机制价值。[page::11][page::12][page::13][page::14]


2.8 回测与选股策略:TopK-Dropout


  • 策略设计:

- 第一天取K只得分最高股票(这里K取30)。
- 之后每日剔除持仓内得分最低的一只,买入未持仓中得分最高的一只。
- 模型每次重训时全部组合重新调仓。
  • 回测区间2019-01-02至2022-03-31,考虑手续费后依然表现优异,显著跑赢沪深300等权基准(年化超额约15.96%)。

- 相关净值图表17(绝对净值)和图表18(相对净值)显示组合稳定成长且回撤小。
  • 各对照组表现明显低于实验组,尤其缺失新闻或时间注意力时收益效果接近基准甚至表现不佳(图表19-26)。

- 图表27总结各组收益对比,凸显注意力机制重要性。
  • 策略日均换手率约6.5%,年化换手16次,换手率合理,图表28-29。

- 训练准确率及损失函数在多轮迭代后趋于稳定,训练收敛良好(图表30、31)。
  • 不同K值(20、30、40)策略差异不大,说明模型对持仓股票数量鲁棒,K=30表现最优(图表32-34)[page::15][page::16][page::17][page::18]


2.9 HAN日频因子有效性验证


  • 因子定义为预测上涨概率,用于计算信息系数(IC):

- IC是当日因子值与下一日收益率的相关系数,反映因子预测能力。
- 虽未进行行业市值中性处理,但覆盖沪深300股票池。
  • 实验组因子日频IC序列稳定,均值约0.0154,ICIR为0.126,虽数值不高,但明显优于对照组1-4(图表35-37)。

- 因子IC低可能受部分股票新闻覆盖不足,尾部无法有效区分,集中体现于多头端。(模型关注新闻多的股票)[page::19]

2.10 HAN日频因子分层测试


  • 一日分为5组滚动分层,统计业绩净值表现,检验分层能力。

- 实验组第一层(多头端)表现突出,通过时间展示其长期稳定超额收益。
  • 尾部层次表现较差,因新闻覆盖度有限,模型难以分辨,符合IC解释。

- 对照组各分层均无明显超额表现(图表38-43)[page::20][page::21]

2.11 注意力机制内部解析


  • 词语注意力(图表44-46):

- 高信噪比关键词(如“加速”、“利好”、“看好”)权重高。
- 专有名词(如“多晶硅”、“华宝”)权重较低,符合直觉。
- 但是对部分行业专用词(如“景气”、“回暖”)权重异常低,可能因训练词向量未使用金融语料库。
  • 新闻注意力(图表47-49):

- 突发事件新闻权重明显高于一般新闻。
- 直接关联个股的新闻权重高于行业情报或宏观新闻。
  • 时间注意力(图表50):

- 越靠近预测日的新闻权重越高,符合时效性预期。
- 但整体权重浮动区间较小(仅约10%上下波动),说明时间权重分化不够显著,有待优化。[page::22][page::23]

2.12 总结与展望


  • 通过基于混合注意力机制的HAN网络实现了新闻多条多日舆情的深度挖掘,有效模拟人类对新闻的阅读与判断过程。

- HAN网络在沪深300选股中体现出显著多头收益,尤其依赖新闻级和时间级注意力机制。
  • 现有模型设计得分较好,但仍有提升空间:

- 词嵌入可考虑使用金融领域预训练BERT或更先进深度模型替代。
- 引入自步学习(Simple-paced Learning)等技术提升模型训练效果。
- 尚未实现可操作的机构级多头alpha组合策略,需进一步研究以实盘应用。
  • 风险提醒再次强调深度学习模型的局限与量化策略对宏观环境依赖。[page::24][page::25]


---

三、图表深度解读



3.1 核心图表


  • 图表1、图表2 HAN网络结构:

- 清楚展示了三层注意力模块如何自词语→新闻→时间层层嵌套,体现模型复杂度和多维关注路径。
  • 图表3 词向量二维可视化:

- 确认词嵌入成功捕获了词义间相似关系。
  • 图表5-6 词语与新闻注意力流程图:

- 说明注意力权重计算流程及其在网络中运作。
  • 图表7-8 GRU、BiGRU结构:

- 深入理解时序信息捕捉机制。
  • 图表9-10 时间注意力与判别网络:

- 总结时间权重加权与最终涨跌分类分布。
  • 图表12-14 及后续与训练、测试相关的网络结构和实验设计:

- 体现了网络训练细节与对比试验设计的严谨性。
  • 图表16:汉因子覆盖度稳定大约90%,基础保证有效训练样本充足。

- 图表17-18 & 19-26:展示实验组与对照组在绝对及相对净值上的表现明显差异,证明增强注意力机制提升选股收益和稳定性。
  • 图表27:多组回测收益一览,对比出核心注意力模块效果最优。

- 图表30-31:训练准确率与损失曲线平稳收敛,模型训练稳定。
  • 图表32-34:不同组合规模参数检验,证明模型鲁棒性。

- 图表35-37:IC序列及累计IC证明实验组因子优于非注意力对照组。
  • 图表38-43:因子分层回测的分层效应显示多头端效用明显。

- 图表44-50:三类注意力权重可视化,理清模型对词、新闻及时间的关注差异,既符合直觉又揭示改进空间。

整体图表数据支持了报告中“混合注意力机制有效提升短期行情预测与选股”的结论,且对不同模块功能的贡献进行了严谨细致的量化验证。[page::0][page::4][page::6][page::7][page::8][page::9][page::10][page::12][page::14][page::15][page::16][page::18][page::19][page::20][page::22][page::23]

---

四、估值分析



本报告主要聚焦算法模型应用与量化选股实证,不涉及传统财务指标估值或定价模型,因此无相关估值方法和目标价的讨论。

---

五、风险因素评估


  • 模型失效风险:基于历史数据的深度学习模型表现虽好,但未来行情变化和结构性变化可能导致模型失效。

- 模型可解释性有限:虽然通过注意力系数进行一定解释,但深度神经网络本质为黑盒,投资者需谨慎对待模型输出。
  • 宏观环境依赖性:量化因子表现高度依赖于宏观经济环境和大盘走势,历史高收益不等同未来表现。

- 数据延迟和准确性:新闻入库延迟导致数据时效性不一致,可能影响预测的即时性和准确性。
  • 技术实现局限:训练迭代次数限制可能导致未完全训练,参数调优不完善也可能带来波动。

- 报告建议投资人理解模型局限性并做好风险控制。[page::0][page::3][page::25]

---

六、批判性视角与细微差别


  • 词嵌入的语料库局限:采用非金融专有大型中文语料预训练词向量,导致模型无法准确捕捉部分金融专业词汇(如“景气”、“回暖”)的真正权重,应引入金融领域预训练模型如FinBERT提升表现。

- 时间注意力权重差异小:时序注意力均值仅10%附近波动,意味着模型对时间维度的差异化利用有限,未来有改进空间。
  • 模型参数调优缺失详细说明:训练过程中因算力限制采取减少训练steps,可能导致训练不充分,对模型稳定性产生影响,报告对此只作简单说明,缺少具体参数敏感性分析。

- 结论中强调多头端收益,未涉及空头表现,存在潜在偏向。
  • 自步学习等新进技术未采用,可能限制模型能力。

- 报告对回测期覆盖的宏观环境和样本是否代表未来预期未深入讨论,需注意潜在过拟合风险。
  • 选股策略的实际操作性和流动性风险未有详细探讨。[page::23][page::25]


---

七、结论性综合



本文系统阐述了运用深度学习混合注意力机制网络(HAN)挖掘个股多日多条新闻舆情以预测沪深300个股短期走势的研究成果。通过三层注意力模块(词语、新闻、时间),模型模拟了人类对新闻的关注偏好和信息处理方式。

实证结果显示,基于HAN网络的TopK-Dropout策略在2019年至2022年间实现了显著的年化超额收益(约15.96%),且换手率适中。对比实验清晰表明,新闻注意力和时间注意力模块对于提升选股性能至关重要,词语注意力模块效果虽较小但依然不可忽视。单因子IC分析和分层测试进一步支持了因子有效性,主要体现于多头端。

模型注意力权重分析与绝大多数预期一致:信噪比高的词语、个股直接相关的新闻、较近日期的新闻获得更高权重,体现模型逻辑合理且具有一定解释能力。但存在词向量与专业词汇表达不足,以及时间注意力权重集中度不足的问题,提示后续优化空间。

报告对模型训练、验证步骤与策略设计进行了详尽介绍,并指出仍有诸多技术和应用上的改进点,包括引入金融领域预训练语言模型、自步学习方法以及构建更具操作性的多头alpha策略。风险识别清晰,提醒投资者谨慎采用该AI选股工具。

综上,报告展示了混合注意力机制在文本导向量化选股领域的强大潜力,丰富了量化投资中信号处理的深度维度,实证验证效果显著且可解释性良好,为未来基于新闻舆情的选股策略指明方向。

---

附:重要图表示例


  • 图表1-2(HAN网络结构示意)





  • 图表17-18(Top30-Dropout实验组回测净值及相对净值)





  • 图表44(词语注意力系数示例)



  • 图表50(时序注意力权重示意)




(更多图表参见报告原文)

---

以上为报告的完整深入解析,内容涵盖研究背景、模型设计、实证展示、有效性验证、风险识别及模型解析,力求对文本与图表进行了详尽梳理与专业讲解,方便投资研究者全面理解和应用该混合注意力机制文本挖掘选股方法。[page::0-28]

报告