ChatGPT 与研报文本情绪的碰撞——量化研究系列报告之十一
创建于 更新于
摘要
本报告探讨了ChatGPT在金融文本情绪分析中的应用,通过对分析师研报标题情绪打分,验证了ChatGPT在情绪评分的连续性、准确性和对上下文语义的理解上的优势,优于传统模型如BERT。基于ChatGPT评分构建的“GPT超预期”样本池表现出更优的收益预测能力和因子增量,尤其在盈余跳空因子JOR中表现显著。同时,构建的GPT评分另类因子在中证500指数域显示较强选股能力,年化超额收益达9.3%,具备实际应用潜力 [pidx::0][pidx::4][pidx::14][pidx::16][pidx::19][pidx::25][pidx::27]
速读内容
- ChatGPT模型基于GPT-3.5架构,结合有监督学习、奖励模型及PPO强化学习进行训练,实现了对自然语言深层语义和情绪的精准捕捉,超越传统情感分析模型表现 [pidx::4]

- 使用Python API进行批量请求,通过系统提示与模型参数如Temperature=0.5,保障评分的合理连续性和调用效率,处理了24万条A股研报标题的情绪评分 [pidx::6][pidx::8]

- ChatGPT对研报标题的情绪评分显示良好连续性,能准确捕捉情绪强度与细微差异,优于BERT模型的离散评分与翻译误差问题 [pidx::9][pidx::10]

- “文本超预期”基于关键词匹配,而“GPT超预期”通过评分>9分识别更精准,后者能过滤非业绩主体的误判,更好理解上下文语义,筛选样本数量更多,覆盖度达85% [pidx::12][pidx::14]

- “GPT超预期”样本池回测年化收益达8%,超越传统文本方法的7.8%,且在多项风险调整指标上表现优异,说明情绪评分带来了显著的收益增量 [pidx::16]

- 盈余跳空因子JOR在“GPT超预期”样本空间中的ICIR和收益均优于文本超预期及全部样本,回测显示年化收益可达17.1%,并具较高月度胜率,验证ChatGPT评分的投资价值 [pidx::18][pidx::19]

- 基于JOR因子构建的“GPT超预期”优选组合年化收益高达26.4%,夏普比率和调仓胜率均显著优于其他组合,尤其在2022年至2023年超预期Beta失效期表现突出 [pidx::20]

- 构建了三种GPT评分因子:等权平均因子(gptavgRecord)、指数加权因子(gptewaRecord)、评分波动因子(gptstdRecord),覆盖全A股票,作为新型另类因子,预测能力较传统大类因子低 [pidx::21][pidx::22]

- 全A市场中gptavgRecord因子表现最佳,RankIC约2.8%,ICIR 1.6,月胜率超过75%,多头年化超额约5.2%,IC序列稳定且分组收益显著单调,展现一定的选股能力 [pidx::23][pidx::24]

- 在中证500指数域,GPT评分因子覆盖度70%,RankIC提升至3.6%,多头年化超额达9.3%,近三年均实现正收益超额,彰显因子在中型蓝筹股票的有效性和应用潜力 [pidx::25][pidx::26]

- 总结:ChatGPT结合大规模深度学习技术,在金融文本情绪分析领域具备显著优势,构建的新型“GPT评分因子”不仅填补传统文本情绪方法的不足,还有效增强了超预期收益预测,提供了可靠的量化投资新思路 [pidx::0][pidx::27]
深度阅读
报告详细分析解读报告:《ChatGPT 与研报文本情绪的碰撞——量化研究系列报告之十一》
---
1. 元数据与报告概览
- 报告标题:《ChatGPT 与研报文本情绪的碰撞——量化研究系列报告之十一》
- 发布日期:2023年8月14日
- 发布机构:华安证券研究所
- 分析师:杉、本报告首席分析师为“Au骆th昱or”和严佳炜(均具备证券投资咨询执业资格)
- 主题:探讨ChatGPT在金融文本,特别是分析师研报标题情绪评分中的应用价值和实际效果,评估其优于传统模型(如BERT)的性能表现,并进一步构建基于ChatGPT评分的新型量化选股因子。
- 核心观点摘要:
- 利用ChatGPT对分析师盈余公告点评标题进行情绪评分,表现优异,能精准捕捉情感强度与关键情绪信息,优于传统模型。
- 通过ChatGPT打造的“GPT评分因子”具备一定的选股能力,并形成了超预期股票池,实现了显著的收益增量,特别是在近两年“超预期Beta”失效背景下表现更突出。
- 报告详尽对比了“文本超预期”筛选法与“GPT超预期”评分法,后者在样本覆盖量和投资表现上均优于前者。
- 构建了三种基于ChatGPT评分的另类因子(等权、指数衰减加权和波动因子),验证其在中证500等指数下的预测能力和投资价值。
- 风险强调了量化模型基于历史数据,过往表现不代表未来,模型有失效风险。
---
2. 逐章深度解读
2.1 ChatGPT背景及金融文本情绪分析的优势(章节1-2)
- ChatGPT简介
介绍了基于GPT-3.5架构的ChatGPT模型,其训练流程包括监督学习、奖励模型训练和PPO强化学习三步,确保其生成文本更贴近人类语言表达。使用Transformer架构和大规模真实数据训练,具备强大的自然语言理解能力[图表1]。
- 在金融领域的适用性
虽然ChatGPT有显著的文本理解和情绪分析优势,但未针对金融领域做专门训练,本文尝试在分析师研报标题这个特定金融文本场景应用ChatGPT进行情绪评分,验证其实用价值。
- 技术实现细节
使用gpt-3.5-turbo模型,通过Python API调用,设计了“系统提示”明确评分标准,控制回复的随机性(temperature=0.5确保回答稳定且合理),通过批量请求方式(每次请求15-20条标题)以控制成本和API调用效率[图表2-9]。
- 评分体系创新
采用1-10连续评分体系替代传统的三分类(正、负、中性)。这一设计反映分析师研报标题多数偏中性或略乐观的写作风格,能更细腻区分积极程度差异。
---
2.2 ChatGPT情绪评分性能展示与传统模型对比(章节2.3-2.4)
- ChatGPT评分合理性与连续性
具体示例展示ChatGPT对不同标题打分准确,评分与标题中情感词汇和语义深度高度匹配,且评分在同一主题下具有递增性和逻辑性(图表10-11)。
- BERT模型存在的不足
BERT虽然采用双向Transformer结构,理论上适合文本情感分析,但其受限于英文训练语料,中文翻译存在信息损失,且只能输出离散标签,不能细化积极度;在分析师研报标题场景下,BERT出现误判和置信度不合理的情况(图表12-13),无论是英文或中文微调版均未显著改善。
- 结论
ChatGPT对金融研报标题的情感识别更加准确、细腻且具有高度一致性,优于BERT等传统NLP模型。
---
2.3 “超预期”现象的文本与GPT评分刻画(章节3)
- 样本选择
聚焦分析师在上市公司盈余公告后5个交易日内发表的点评标题,样本时间跨度2016年至2023年,共约25万份样本(图表14-15),4、8、10月为盈余公告密集期,对应点评数量显著集中。
- “文本超预期”的定义
通过关键词法筛选含有“超预期”等句式的标题,排除表述未来预期的屏蔽词,选出传统意义上的“超预期”文本样本,共约2万份,呈逐年增长趋势(图表16-17)。
- “GPT超预期”定义
直接以GPT评分≥9分定义“GPT超预期”样本。有趣的是,部分“GPT超预期”样本标题中未出现“超预期”等关键词,但通过GPT对积极信号(如业绩翻番、创新高、盈利上调等)敏锐识别被纳入(图表21)。
GPT能区分“超预期”主体,对同含“超预期”文本,GPT可甄别评述的非业绩主体(如成本、价格等负面内容)并给予较低评分,实现更精准的情绪主体判别(图表18-19)。
- 样本比较与覆盖度
GPT超预期样本约3万份,规模高于文本超预期样本,二者重合率约67%,覆盖范围更广(图表22-23)。
---
2.4 GPT超预期在投资策略上的实证效果(章节3.3)
- 超预期样本池表现
采用等权组合,剔除ST、IPO不满3个月及市值小盘股,月度调仓,测算2017-2023年收益。GPT超预期样本池年化收益8.0%,文本超预期7.8%,GPT方案的调仓胜率、信息比率和最大回撤表现均优于文本方案(图表24-26)。
- JOR跳空因子定义与计算
基于股价盈余公告跳空表现(次日最低价与公告日前收盘价差值剔除市场基准),构建JOR因子。区分整体市场JOR、文本超预期JOR及GPT超预期JOR,时间窗口采用40日和60日两种(图表27-30)。
- JOR因子测试
GPT超预期样本空间的JOR因子在IC及收益表现上均优于文本超预期和全体样本,尤其近三年表现优异。
- GPT超预期JOR单因子ICIR达2.94,高于文本超预期2.37
- 多头年化收益17.1%,显著超越整体与文本超预期样本空间(图表32-36)。
- JOR优选组合构建与回测
通过定期交易策略筛选JOR因子值靠前的50及100只股票构建组合,回测期间(2017-2023.6)GPT超预期JOR组合年化收益最高达26.4%,超额收益较文本超预期及全市场分别提升约2%和10%。夏普率、信息比率和调仓胜率也均有显著提升(图表37-42)。
- 综合结论
GPT基于情感评分识别出的“超预期”股票池带来正向的投资收益,并在技术跳空因子与构建策略中表现出增量价值,验证了ChatGPT评分的实用性和优越性。
---
2.5 基于GPT评分构建的新型量化因子(章节4)
- 因子设计逻辑
试图将ChatGPT对分析师点评语义情感的评分进一步转化为连续可操作的量化因子。因子包括:
1. 等权平均评分因子(gptavgRecord):过去窗口(1、2、3个月)内所有有效评论评分的简单平均。
2. 指数衰减加权评分因子(gptewaRecord):近期评分权重更大,体现情绪的时效性。
3. 评分波动因子(gptstdRecord):评分的标准差,反映分析师观点分歧度,预期为负向因子。
- 因子构建细节
- 评分有效性过滤:剔除评分0及最低10%评分异常值。
- 事件窗口填充:参考JOR逻辑,因子数据在距离最近盈余公告3个月内填充,形成月频截面因子。
- 指数加权权重计算演示(图表43-44)。
- 因子表现概述
- 全市场(全A)中因子表现一般,等权因子表现优于指数加权和波动因子,3个月窗口表现不及1-2个月窗口。
- 预测能力指标:
- gptavgRecord RankIC约2.8%,ICIR 1.6,月胜率达75.3%。
- 多头年化超额收益约5.2%,多空年化超额12.7%。
- 与传统成长因子及分析师因子相关度低(约0.2-0.3),说明构建出新型另类因子,具备独立选股能力(图表46-52)。
- 不同行业和指数水平表现
- 在沪深300指数范围,GPT评分因子表现不佳,难以形成显著超额收益(图表54)。
- 在中证500指数范围内,因子表现明显好转,覆盖率达70%左右,IC和收益指标均表现稳定且优异(RankIC 3.6%,多头年化超额9.3%),且近三年持续正超额(图表55-59)。
---
2.6 总结与风险提示(章节5及附录)
- 总结
ChatGPT以其强大的自然语言理解能力,在金融文本尤其是分析师研报标题情绪评分中展现出显著优势。通过细致调优提示和模型参数,成功实现连续情绪评分体系,精准捕捉积极程度差异。
“GPT超预期”股票池和基于GPT评分构建的JOR跳空因子均带来了明显的投资超额收益,尤其在近年来传统超预期Beta失效背景下表现突出。
构建的基于GPT评分的另类量化因子,在全A及特定指数中均表现出可观的预测能力和选股价值,验证了ChatGPT在量化投资领域的应用潜力。
- 风险提示
强调量化模型基于历史数据,回测表现不代表未来业绩,模型存在失效风险。
强调报告信息依赖公开数据和分析师判断,不能作为直接投资建议。
---
3. 图表深度解读(精选重点)
3.1 ChatGPT训练过程(图表1)
- 展示了ChatGPT训练的三阶段流程:
1. 有监督学习阶段,标注师体现理想输出行为;
2. 奖励模型训练,标注师对模型输出优劣排序;
3. 利用PPO强化学习算法,迭代优化策略,确保模型产出符合人类期望。
- 体现了ChatGPT非简单语言模型,而是以人类反馈引导训练的复杂机制,解释了其优异的上下文理解和语义识别能力。
3.2 研报标题与情绪评分示例(图表10、11)
- 图表10展示了三个极具代表性的标题评分示例,评分分别为9.8(极积极)、7.5(偏积极)、6(轻度积极),说明ChatGPT识别能力不仅识别积极/消极,更能量化积极度。
- 图表11通过对同一公司多个标题递进描述,评分由低升高,反映ChatGPT的连续性判断能力。
3.3 “超预期”样本及其表现(图表16-26)
- 图表16-17显示“文本超预期”样本的年度与月度分布,呈现出明显的盈余公告节奏特点。
- 图表22-23 对比了“GPT超预期”与“文本超预期”的样本数量及重合度,揭示了GPT方法在样本覆盖和判别精准度上的优势。
- 图表24-26 显示了两类超预期样本池的数量变化及收益指标,GPT超预期样本池规模大且年化收益8%,略优于文本选股;信息比及调仓胜率等交易指标同样优于文本方法。
3.4 JOR跳空因子与回测表现(图表27-42)
- 图表27解释JOR因子的计算方式,即股价盈余公告跳空幅度剔除市场基准影响。
- 图表29-30 展示了超预期JOR因子的覆盖度,GPT超预期样本对应JOR覆盖率显著高于文本样本,说明GPT对事件识别的准确性更强。
- 图表32-36 通过多角度实验对比GPT与文本超预期JOR因子的IC、收益和净值曲线,验证GPT组更强的稳健性和收益性。
- 图表37-42回测优选50/100等权组合,GPT超预期组合表现突出,年化收益最高达26.4%,强势领先其他组合及基准指数。
3.5 GPT评分因子构建及全市场表现(图表43-52)
- 图表43-44展示指数衰减加权权重的计算方法,体现信息时效性。
- 图表46、47显示全市场中GPT因子覆盖度达约50%,且等权评分因子表现优于指数加权与波动因子。
- 图表48-52分别展现了因子的IC序列、分组收益及多空净值曲线,呈现因子大致稳定且收益贡献明显,尤其是多头部分。
3.6 指数域不同表现(图表53-59)
- 在沪深300中,GPT评分因子表现不佳(图表54);与之对比,中证500指数范围(更聚焦中盘股)中表现亮眼,覆盖率70%,多头年化超额达9.3%,IC及分组收益稳定优化(图表55-59)。
---
4. 估值分析
报告核心为情绪评分及因子构建,未涉及传统的公司估值模型(如DCF、市盈率或EV/EBITDA)。估值部分侧重于基于情绪评分衍生的量化因子及其收益表现验证,侧重因子研究框架。
---
5. 风险因素评估
- 数据依赖风险:量化模型完全依赖于历史数据构建和机器学习预测,历史不代表未来。样本数据和模型训练在不断变化的金融环境下可能失效。
- 模型失效风险:ChatGPT虽强大但最初未专门针对金融数据场景优化,其评分与实际市场行为的关系存在不确定性;市场环境、政策变化均可能使得情绪与股票价格关系弱化。
- 执行风险:调用API存在技术瓶颈(请求限制、成本问题等),实施成本和响应时效需有效管理。
- 报告没有详细提及缓解措施,但暗示用户需结合多因子、多时间周期验证。
---
6. 批判性视角与细微差别
- ChatGPT训练数据截止时间:ChatGPT训练数据截止2021年9月,与2016–2023年样本重叠,可能引发数据泄露风险。报告明确指出评分问题为情绪识别任务,非简单问答,且通过自定义提示降低泄露风险,合理论证可信度。
- BERT模型局限:报告侧重探索模型,未深入BERT金融语料微调潜力,结果存在固有偏差。未来精调复杂度高,未纳入,但对比充分说明ChatGPT优越性。
- GPT“超预期”评分标准及样本选择:定义大于9分为“超预期”,此阈值较强,筛样存在主观因素,但结合实际标题逻辑与收益表现验证合理。
- 因子覆盖度限制:GPT评分因子覆盖度有限(全A约50%),代表其非万能工具,依赖分析师研报数量与质量,存在数据不完整风险。
- 指数域表现差异:沪深300下表现弱,意味着GPT情绪因子适合特定规模及成长阶段股票,局限性待加强。
- 量化策略盈利可持续性风险:报告强调近两年“超预期Beta”失效背景下GPT表现逆势,但强烈依赖回测结果,真实交易中需考虑市场微观结构风险。
---
7. 结论性综合
本篇报告详细系统地验证了ChatGPT在金融文本情绪分析,尤其分析师研报盈余点评标题评分领域的实用性。通过构建1-10分的连续情绪评分体系,ChatGPT不仅情绪识别细腻且连贯性强,优于传统BERT模型的离散分类表现。其对“超预期”情绪的精准识别,超越了传统的关键词文本筛选法,显著提升了超预期样本池筛选的质量和覆盖度。
实证分析基于中国A股市场的海量数据,建立了“GPT超预期”股票池和衍生的JOR跳空因子,表现出超过7%-8%的年化超额和显著稳健性,尤其在近两年传统超预期Beta失效背景下效果抢眼。基于GPT评分的量化因子,特别是在中证500样本域,进一步验证了其作为新型另类选股因子的投资价值,具备良好的相关性分离与收益预测能力。
图表深度体现了ChatGPT评分因子在覆盖率、Ranking IC、年化收益及净值曲线等多个维度上的优势和稳定性,展示了该方法在现代量化投资研发中的广泛应用潜力。报告强调了当前量化模型的风险,提醒投资者市场未知风险影响及模型未来可能失效,突显谨慎操作必要性。
综上,ChatGPT作为大语言模型,在金融语言情绪分析领域实现了突破,为量化选股因子创新提供了有力工具和新思路,开创“自然语言处理+量化投资”深度融合新篇章。
---
备注:图表链接示意
- 图表1 ChatGPT训练过程

- 图表2 OpenAI请求示例

- 图表3 OpenAI回复示例

- 图表4 公司研究研报年度数量

- 图表10 ChatGPT评分示例1
- 图表11 ChatGPT评分示例2
- 图表16 文本超预期年度分布

- 图表17 文本超预期月度分布

- 图表18 GPT对“超预期”主体判别
- 图表19 GPT具备上下文语义理解能力
- 图表20 ChatGPT对盈余点评评分分布图

- 图表21 无“超预期”关键词但GPT高评分示例
- 图表22 GPT与文本超预期年度对比

- 图表23 GPT与文本超预期月度对比

- 图表24 超预期样本池数量

- 图表25 超预期样本池收益指标
- 图表26 超预期样本池分年度收益
- 图表27 JOR_delay40构造示例
- 图表29-30 超预期JOR覆盖度


- 图表32 超预期JOR单因子测试
- 图表33 JOR RankIC序列

- 图表34 不同样本空间JOR分组年化收益

- 图表35 JOR多空净值曲线

- 图表37 优选50等权组合指标
- 图表38 优选50等权组合净值曲线

- 图表40 优选100等权组合指标
- 图表41 优选100等权组合净值曲线

- 图表43-44 指数加权因子权重说明

- 图表46 GPT等权因子全A覆盖度

- 图表47 GPT评分因子检测结果(全A,10组)
- 图表49 GPT等权因子IC序列

- 图表50 GPT评分因子分组收益

- 图表52 GPT因子多空净值曲线

- 图表53 非行业市值中性化GPT评分因子性能
- 图表54 GPT评分因子沪深300检测
- 图表55 GPT评分因子中证500检测
- 图表56 GPT合成因子RankIC

- 图表57 GPT合成因子分组收益

- 图表58 GPT合成因子多头年度收益

- 图表59 GPT合成因子多空净值曲线

---
结尾标注
本分析依据原文各页内容综合而成,引用标号如:[pidx::0]...[pidx::27],涵盖全文数据、图表及分析论断。
---
以上为该份研报完整的详尽分析,包含背景、方法论、实证结果、因子构建及风险提示。报告对ChatGPT在金融文本情绪分析及量化投资应用上的突破性探索为市场提供了重要参考。