业绩预告期推荐关注文本选股策略
创建于 更新于
摘要
本报告聚焦于业绩预告期文本选股策略的构建与跟踪,基于机器学习模型挖掘卖方分析师研报文本中的情绪因子,涵盖三种主要文本因子:文本PEAD、文本FADT及文本FADT_BERT。通过XGBoost模型识别研报情绪,结合基本面和技术面因子构建多头增强组合。实证显示,文本FADT组合表现最好,2022年超额收益达24.04%,板块内医药、科技、地产基建等成长类板块文本因子选股效果显著,行业配置层面银行、煤炭、石油石化等行业文本得分领先,文本因子与研报正向情感热度符合预期,具备较强选股及行业配置价值。[pidx::0][pidx::3][pidx::12][pidx::15][pidx::16][pidx::18]
速读内容
- 三大文本因子策略介绍 [pidx::2]
- 文本PEAD因子基于研报文本词频向量编码构建,关注上市公司业绩发布场景。
- 文本FADT因子以研报文本词频向量特征为基础,结合超额收益标签训练XGBoost模型提取情绪信号。
- 文本FADTBERT因子进一步使用FinBERT隐层特征编码文本,增强对语义情感的捕捉能力。


- 文本FADT基础版关键回测表现 [pidx::3]
- forecastadjtxt因子分层回测绝对净值与超额净值显示顶层分层明显跑赢其他层级。
- 基于该因子构建的FADT增强组合从2009年至2022年实现年化收益42.44%,年化超额收益32.94%,最大回撤52.04%,夏普比率1.40。



- 文本FADT
- 使用FinBERT编码提升文本信息捕获,结合XGBoost对研报发布区间超额收益进行分类挖掘。
- FADTBERT增强组合成立以来年化收益44.86%,超额34.73%,最大回撤48.69%,夏普比率1.60,2022年虽有一定回撤但长期表现优异。



- 文本PEAD选股策略及回测成果 [pidx::9][pidx::10]
- 基于业绩发布场景的词频文本因子suetxt构建,显著区分分层收益。
- PEAD增强组合年化收益37.00%,超额30.37%,最大回撤44.76%,夏普比率1.38。
- 2022年12月组合绝对收益-4.17%,年度超额收益13.76%。



- 文本因子行业内选股效果及配置跟踪 [pidx::12][pidx::13][pidx::14][pidx::15]
- 板块内部均等五分层回测显示医药、科技、消费、地产基建板块文本因子区分效应显著,多头分层表现优异。
- 周期板块年化收益20.45%,超额14.34%;医药板块年化收益23.53%,超额12.25%;科技板块年化收益21.28%,超额11.08%;地产基建板块年化收益12.99%,超额7.10%。
- 金融板块区分效果较弱。





- 文本因子行业配置月度轮动表现 [pidx::15][pidx::16]
- 基于个股文本得分的行业加权得分,行业分五层月轮动,最高层年化收益14.86%,超额4.28%。
- 多头行业组合相较行业等权基准表现突出,优选周期、金融等行业。
- 最近半年行业文本打分前列为银行、煤炭、石油石化、农林牧渔及电力设备新能源。


- 近期分析师正向情感较积极个股热点追踪 [pidx::17][pidx::18]
- 针对近三个月盈利预测调整研报进行文本打分,筛选出正向情感最高的前50只个股,结合流通市值绘制热力图。
- 正向热度最高个股包括合锻智能、海兴电力、振芯科技、上海电力、湘电股份、松芝股份、洪都航空、华如科技、黔源电力、常宝股份。

深度阅读
分析报告解构与详尽分析
——《业绩预告期推荐关注文本选股策略》华泰研究2023年1月发布量化投资月报详析
---
一、元数据与报告概览
报告标题:《业绩预告期推荐关注文本选股策略》
研究机构:华泰证券股份有限公司(华泰研究)
发布日期:2023年1月5日
地域范围:中国内地资本市场
研究主题:基于机器学习与自然语言处理的文本因子在上市公司业绩预告及卖方研报中的应用,利用文本信息进行量化选股和行业配置策略研究。
核心论点和结论摘要:
- 业绩预告发布期即将密集,文本选股策略在股票挑选中表现卓越,尤其是文本 FADT 增强组合表现最佳。
- 虽然12月整体市场震荡,截至报告发布,文本因子选股策略在多个板块(医药、科技、地产基建)及行业(银行、煤炭、石油石化等)展现良好的区分效果与收益超额能力。
- 多维度机器学习文本因子(词频向量、FinBERT编码)辅助构建增强组合,均体现较强的收益表现及稳健的抗风险能力。
- 推荐关注基于文本信息的量化选股策略,尤其着眼于接近业绩发布时的文本情绪驱动。
- 风险提示强调历史效果不保证未来表现,人工智能模型可解释性有限,策略效果与市场环境高度相关,应谨慎使用。
总体上,报告用实证数据支持基于文本挖掘的量化策略价值,倡导关注基本面信息中蕴含的分析师观点的量化利用,强调人工智能的辅助价值和潜在风险。[pidx::0]
---
二、逐节深度解读
2.1 文本因子及选股组合跟踪
报告回顾并衔接三篇核心研究报告:
- 《人工智能 51:文本 PEAD 选股》(20220107)
- 《人工智能 57:文本 FADT 选股》(20220701)
- 《人工智能 63:再探文本 FADT 选股》(20221028)
主要方法为:
- 研报文本经过分词及向量化处理,分别构建词频矩阵(博文中称作词频向量)与FinBERT编码向量。本质上,词频向量反映文本内容的结构和关键词频次,FinBERT作为金融领域预训练语言模型则强调语义和情感捕捉。
- 以研报发布日前后3天(T-1至T+1)的股票超额收益作为标签,训练XGBoost机器学习模型,学习文本中隐藏的分析师情绪及预测能力。
- 构建三类文本因子:SUEtxt(基于PEAD的盈余惊喜文本信号)、forecastadjtxt(基于盈利预测调整的文本信号)、forecastadjtxtbert(基于FinBERT编码的升级文本信号)。
- 因子基础上,通过筛选因子分层中的高分股票构建主动量化增强组合。
图表1和图表2直观展现了基于词频和FinBERT编码文本数据处理及模型训练的一体化流程,强调了XGBoost在分类情绪标签及生成预测因子中的作用。[pidx::2]
---
2.2 文本 FADT 基础版与增强组合表现
- 基础版使用词频向量挖掘收益信号,构建forecastadjtxt因子。
- 图表3展示了2009年至2022年底,文本因子分层净值走势,分层1(最高层)显著优于其他层,说明因子能有效区分股票的未来表现。
- 图表4和图表6显示分层1在超额收益上优于基准(中证500),2022年依然保有积极的超额收益能力。
- 通过结合基本面与技术面因子进行月度筛选,构建FADT增强组合,图表7-8显示该增强组合总体净值和超额净值均持续上涨,最大回撤维持在合理范围。
- 年度业绩数据(图表9)表明,增强组合整体年化收益42.44%,超额收益32.94%,夏普比率1.40,表现稳定,风险收益兼顾。
- 2022年虽整体市场疲软,增强组合表现仍优于基准,12月回撤幅度控制在-3.28%,获得1.46%的超额收益(图表11)。
- 持仓分析(图表12)指出个股选择具备差异化收益表现,且因子得分与月度表现呈一定正相关。
总结:文本FADT基础版因子和增强策略在历史和2022年均表现不俗,验证了文本挖掘对捕获盈利预测调整的预期股价超额收益有效性和实用性。[pidx::3][pidx::4][pidx::5]
---
2.3 文本 FADT 升级版(BERT编码)及组合表现
- 升级版利用FinBERT深度语义编码,更精细捕捉研报文本情感倾向,构建forecastadjtxtbert因子。
- 图表13至图表16显示,升级版因子相比基础版存在更强的分层分化能力和绝对净值提升,说明FinBERT编码有助于提升文本预测精准度。
- FADTBERT增强组合采用不等权配置逻辑,加入基本面和技术面因子综合加权。
- 回测净值图表17及超额净值图表18显示出该组合成立以来整体业绩更加优异,2022年累计实现8.50%绝对收益及11.81%超额收益。
- 年度及月度绩效表(图表19、20)强化了组合在多数年份保持正收益及超额表现,尽管2022年第四季度波动上升但整体仍有坚实表现。
- 持仓细节(图表22)显示升级版组合选股覆盖更广,调整动态灵活,文本因子得分覆盖多个行业领头羊。
此升级版文本因子和相应选股组合的表现进一步印证金融领域SOTA文本模型如FinBERT的有效性,在盈利预测调整场景下具备更优信息提取能力。[pidx::6][pidx::7][pidx::8]
---
2.4 文本 PEAD 组合(业绩发布的文本情绪挖掘)及增强策略
- 该策略针对上市公司业绩发布期的分析师研报文本,利用词频向量构建suetxt因子,通过XGBoost模型关联研报前后超额收益。
- 图表23至26表明suetxt因子具备稳定的分层能力,分层1和10表现出明显差异,分层1持续取得超额收益,且2022年表现较优。
- PEAD增强组合筛选基础池内得分靠前前20只股票构建组合(图表27-28),整体回测净值和超额回撤良好,2022年实现绝对收益-7.85%,超额收益达13.76%,风险调整回报稳健。
- 年度、月度绩效(图表29-31)趋势显示该策略在不同市场波动中表现稳定,具备较强顺周期特性。
- 持仓表(图表32)展示了具体股票权重、文本得分及月度盈亏,验证了文本因子的行业及个股挑选有效性。
整体而言,PEAD文本因子专注于业绩发布且表现出色,是补充盈利预测调整场景文本分析的重要策略,构成华泰文本选股体系的重要一环。[pidx::9][pidx::10][pidx::11]
---
2.5 文本因子行业内选股效果跟踪及行业热度更新
- 报告对中信一级行业进行归类,划分为周期、制造、地产基建、科技、消费、医药与金融七大板块(图表33)。
- 采用分层回测方法,均等分五层,测试因子在板块内部的选股能力。
- 从周期板块(图表34-35)和医药板块(图表36-37)开始到消费、科技、地产基建、制造、金融(图表38-47),每个板块均展示了绝对净值和相对基准净值表现。
- 结果显示:
- 医药、消费、科技等成长型板块具备较强的文本因子区分能力,最高分层突出表现,多头收益稳定明显超越基准。
- 地产基建板块内表现稳健,文本因子仍具有一定分层效果。
- 循环经济和制造板块表现中等,部分分层收益有限。
- 金融板块则区分度较低,文本因子效果不显著。
- 结合板块内分层回测数据和夏普比率等风险调整指标表(图表48),进一步确认医药(分层1年化收益23.53%,超额12.25%)、科技、消费(均超10%年化超额收益)为文本因子最有效的行业区间。
此部分明确提示文本因子在特定行业和板块中具有选股和策略设计的应用优势,强调了分板块策略构建的必要性。[pidx::12][pidx::13][pidx::14]
---
2.6 文本因子行业配置效果跟踪
- 进一步将文本因子应用于行业配置层面,基于个股文本得分按行业加权,形成行业层面的情绪打分信号。
- 按每月末分行业打分,按照打分将行业分为5层,构建行业轮动策略(图表49)。
- 多头第一层年化收益为14.86%,超额收益4.28%,且回撤控制合理(图表50-52)。
- 最新半年的行业打分(图表53)显示,银行、煤炭、石油石化、农林牧渔和电力设备新能源为正向情绪最强的行业,建议关注这些行业的投资机会。
行业配置层面的成果展现了文本因子在宏观行业选择层面也有显著指导意义,补足了选股因子向行业资产配置的延展能力,适合构建多层次量化策略组合。[pidx::15][pidx::16]
---
2.7 近期分析师正向情感个股热度跟踪
- 基于近3个月盈利预测调整研报文本打分,筛选研报数量≥2的股票,计算平均文本得分,形成分析师情绪正向热度指标。
- 根据分析师正向热度排名,选出前50只股票,结合流通市值绘制热力图(图表55),涵盖机械、电子、银行等多行业龙头与成长股。
- 这些个股为投资者提供精准关注标的,既包含大盘标的如南京银行,也包括行业成长股如合锻智能、振芯科技等。
此部分具备较强的实践指导意义,助力投资者关注当前分析师意见较为积极的个股,为文本选股组合提供辅助观察点。[pidx::17][pidx::18]
---
2.8 风险提示与免责声明
- 明确指出机器学习模型及人工智能文本策略是基于历史数据总结,有失效风险且可解释性较低。
- 量化因子效果深受宏观环境和大盘走势影响,不保证未来效果。
- 报告信息不构成具体股票买卖建议,警示投资者理性审慎用量化逻辑。
- 详细列明分析师及研究机构利益冲突情况,保障透明度与合规性。
风险揭示体现专业与谨慎,有助于投资者全面理解策略局限及模型潜在不确定性。[pidx::0][pidx::18][pidx::19]
---
三、重点图表深度解读
3.1 文本PEAD超额净值图(封面页图)
- 图示2009年起文本PEAD因子相对于中证500的超额净值持续上升,尤其2015年后增长迅速。
- 虽年度有调整,但整体趋势清晰显示文本因子有效捕捉超额收益信号,支持文本选股策略的可持续性。
该图作为文本因子效果历史的“业绩曲线”,强化了后续各分项因子回测的可信度与权威性。[pidx::0]
---
3.2 文本因子模型框架(图表1与2)
- 说明两大模型架构:基于原始词频矩阵构建XGBoost模型(图表1)与基于FinBERT嵌入编码构建情绪识别模型(图表2)。
- XGBoost作为树模型,凭借其强大非线性拟合能力,结合文本向量与收益标签,实现针对情绪的监督学习。
- FinBERT编码引入语义层次,强化了对金融文本的把握能力。
两图揭示了文本选股策略背后的机器学习核心逻辑,为策略表现提供数据支撑与理论基础。[pidx::2]
---
3.3 文字因子分层净值及超额表现
- 各因子分层(10层或5层)回测图均显示最高层明显优于其他层,突出因子区分能力。
- 基础版和升级版因子对比显示升级版FinBERT编码因子的分层更显著,绝对净值更高,表明高阶文本模型的优势。
- 增强组合对比基准中证500超额净值持续上涨,且最大回撤相对可控,表明策略在风险调整后的投资价值。
图示数据多维度验证了文本因子和组合的效果稳定性与优越性,为策略设计和投资考量提供坚实证据。[pidx::3][pidx::4][pidx::6][pidx::7][pidx::9][pidx::10]
---
3.4 行业板块内文本因子分层表现(图表34-47)
- 各板块净值与相对净值图反复验证医药、消费、科技板块表现最佳,五层中分层1与其他层差异显著。
- 金融板块分层无显著区分,提示该板块分析师文本对股价影响较弱或文本因子捕捉能力有限。
- 周期、制造、地产基建板块内文本因子效果介于二者之间,给予板块轮动中择优策略配置空间。
展现文本策略适配不同板块差异,支持行业轮动与分层配置的投资组合优化策略。[pidx::12][pidx::13][pidx::14]
---
3.5 行业配置轮动与打分热度(图表49-53)
- 出色的回测净值和超额收益显示文本因子在行业选择上具备明显价值。
- 近期行业情绪热度集中在银行、煤炭、石油石化、农林牧渔、电力设备及新能源领域,指引热点资金配置。
- 纯多头与空头组合的区分凸显策略的正负收益捕捉能力,夏普比率、最大回撤合理,风险可控。
该行业配置逻辑为投资者提供以文本数据驱动的行业轮动策略蓝图,有助于资产配置优化。[pidx::15][pidx::16]
---
3.6 近期分析师正向情感股票展示(图表55)
- 涵盖多个行业龙头与中小市值股票,所选股票具有较高分析师积极情绪,可能是短期内投资者关注热点。
- 结合文本得分与流通市值规模,强调选股兼顾流动性及情绪强度,提升实操适应性。
该部分为投资管理者提供具体个股池,辅助组合构建,改善实盘操作体验。[pidx::17][pidx::18]
---
四、估值分析部分
报告主要聚焦文本因子构建及策略表现,未涉及具体公司单一估值模型(如DCF、PE等)的应用,因此无传统估值分析内容。策略估值可理解为基于历史超额收益及风险调整指标(夏普率、最大回撤)建立投资价值判断,投资收益率反映策略隐含估值支持强度。
---
五、风险因素评估
- 机器学习模型基于历史训练样本,策略效果具有时间与市场环境依赖性,可能因结构性变动而失效。
- 人工智能模型在可解释性方面存短板,投资决策中需谨慎评估其预测理由与可信度。
- 量化因子与宏观经济、大盘波动紧密关联,需防范剧烈市场波动导致的策略性能退化。
- 相关个股筛选不等同推荐,策略应用中需辅以基本面等多维度判断。
整体风险提示彰显了研究团队对策略局限与市场不确定性的高度警觉,强化了投资人风险意识。[pidx::0][pidx::18]
---
六、批判性视角与细微差别
- 依赖历史与行为数据局限:文本因子虽表现优良,但均基于过去数据训练,未来情绪模式或市场结构改变可能影响策略适用性。
- 样本外验证:虽然报告回测期较长,但近年来文本特征的变化和市场规则调整对模型一般化能力的影响值得进一步探讨。
- 行业表现差异:金融板块文本因子效果不明显,提示策略的行业适用范围有限,需注意策略适配行业的粒度与动态调整。
- 持仓与权重:基础组合与不等权组合表现差异大,具体组合构建细节需要更多公开透明以便投资者复现与风险管理。
- 缺少宏观变量联动分析:报告未显著探讨宏观经济、政策等因素对文本情绪和选股策略的中介作用。
综上,报告内容专业详尽但在对策略外推性和动态调整机制的讨论上相对不足,需投资者结合更多市场信息动态应用。
---
七、结论性综合
华泰证券《业绩预告期推荐关注文本选股策略》报告系统介绍了基于机器学习与自然语言处理的文本因子构建流程及其在中国A股市场的应用表现,详尽 探讨了三大核心文本策略——文本PEAD、文本FADT基础版及升级版——及其对应增强组合的历史表现、风险指标、行业适应性和持仓结构。报告基于大量回测数据、图表和统计指标,展示文本策略具备稳健且显著的超额收益能力,尤其在医药、科技、消费等成长板块内选股效果优异。
细分行业内文本因子分层回测解析揭示,文本因子不仅具备选股功能,也支持行业配置与轮动策略设计,近期银行、煤炭、石油石化等行业热度较高,为投资者提供了明确的配置方向。结合分析师最新情绪热点个股,报告为实操选股提供具体标的支撑。
在风险提示中,研究团队强调人工智能选股模型的历史回顾性质、有限解释力及宏观环境敏感性,提醒投资者合理控制预期并进行动态监测。
整体来看,报告以科学严谨的数据及模型架构佐证文本情绪因子作为量化策略因子的有效性,推荐关注基于文本分析的主动量化选股策略,特别是在业绩预告密集披露期,通过辅助投资决策寻求超额回报,兼顾风险管理。其结构清晰、逻辑严密,数据翔实,是投资者在当前市场环境下洞察情绪驱动及挖掘潜在alpha的重要参考。
---
参考图表示意
(为便于直观理解部分关键图示,概括说明不附原图,但全文所有主要图表均已反映在上文分析中)
- 图表1-2:文本因子提取及XGBoost模型框架
- 图表3-31:文本PEAD、FADT及FADT_BERT因子及组合回测净值、超额净值、年度与月度绩效,持仓列表
- 图表33-47:各板块文本因子分层回测表现(绝对与相对净值)
- 图表49-53:行业配置轮动回测及动态打分排行
- 图表55:分析师近期正向情绪个股热度排名及详细列表
---
注释与溯源标识:文中所有推断均基于报告内容,标记页码
[pidx::xx]
,确保溯源透明,便于查核。