Alpha掘金系列之七:ChatGLM医药行业舆情精选策略 大模型微调指南
创建于 更新于
摘要
本报告系统介绍了大语言模型微调技术,重点采用LoRA参数高效微调方法对国产ChatGLM2模型进行医药行业新闻文本舆情精选策略的构建。通过以ChatGPT3.5输出作为微调标签,实现ChatGLM2模型在医药行业新闻情感与逻辑推理分析上的显著提升,构建的周度舆情精选策略年化超额收益率超过30%,运行稳定且手续费影响可控,展现了大模型微调在金融定制领域投研辅助的巨大应用潜力。[page::0][page::11][page::16][page::18]
速读内容
大语言模型的微调方式与优势介绍 [page::0][page::1][page::3][page::4]
- 微调通过在特定任务和语料上训练预训练模型,提升模型的针对性和专业性。
- 参数高效微调(PEFT)方式,如LoRA和P-Tuning,显著降低显存消耗和训练成本。
- LoRA通过对预训练权重矩阵加低秩矩阵实现微调,保持精度同时节省资源。
- 实测LoRA在不同模型规模均可达到全量微调90%以上的效果。
微调训练的一般步骤与资源消耗 [page::5][page::6][page::7]
| 超参数 | 含义 |
|----------------|-----------------------------|
| Epoch | 训练迭代轮数 |
| Learningrate | 学习率 |
| Batchsize | 每个批次样本数 |
| Gradient acc. | 梯度累积,模拟大batch更新 |
| Maxinputlen | 最大输入token长度 |
| Maxoutputlen | 最大输出token长度 |
- 通过梯度累积和混合精度训练有效降低显卡显存需求。
- LoRA微调显存需求随批次大小和精度不同,范围约为8GB至28GB不等。
- 保持适当的batch size对训练收敛和模型表现十分关键。
ChatGLM2基于LoRA微调实践 [page::7][page::8]
- 微调前模型基础认知有限,通过数十个样本微调即可实现认知迁移。
- 对中信一级行业分类和医药行业知识进行微调,大幅提升金融领域问答准确性。
- 利用医药行业新闻与股价逻辑较为清晰特点,选取28000条相关性强新闻作为微调语料。
- 新闻覆盖448只股票,股票覆盖度逐年提升,最高超过20%。
以超额收益率直接作为标签训练效果不佳 [page::9][page::10]

- 训练集loss下降显著,验证集loss无明显变化,表明模型难以直接从文本学习收益。
- 样本内准确率约0.59,样本外仅约0.34,效果接近随机。
- 股票收益受多因素影响,直接映射文本到收益率较难。
- 建议先基于文本挖掘情感分类,后用标签进行因子或策略构建。
ChatGPT3.5输出作为标签替代收益率标签 [page::11][page::12]
- FinEval数据显示ChatGPT在中文金融领域表现领先。
| Model | Finance | Economy | Accounting | Certificate | Average |
|--------------|---------|---------|------------|-------------|---------|
| GPT-4 | 71.0 | 74.5 | 59.3 | 70.4 | 68.6 |
| ChatGPT | 59.3 | 61.6 | 45.2 | 55.1 | 55.0 |
| ChatGLM2-6B | 46.5 | 46.4 | 44.5 | 51.5 | 47.4 |
- 采用ChatGPT3.5判断新闻文本情绪标签(积极/消极/中立)作为微调ChatGLM2的重要标签来源。
- 对比三个模型(ChatGPT3.5、ChatGLM2、FinBERT)输出,发现ChatGLM2倾向积极判断,FinBERT偏消极。

三模型标签与未来超额收益关系分析 [page::13][page::14]

- ChatGPT3.5和ChatGLM2标签单调性好,消极标签未来5日超额收益分别约-1.87%和-0.94%,积极标签分别正向收益0.23%和0.17%。

- 从事件驱动收益曲线看,ChatGPT3.5表现最优,ChatGLM2和FinBERT区分度较弱。
基于ChatGPT3.5及ChatGLM2标签构建医药舆情精选策略 [page::14][page::15]

- 策略以周度频率调仓,取新闻标签得分高低构建组合,设置新闻覆盖度门槛确保数据质量。
| 指标 | ChatGPT3.5策略 | ChatGLM2策略 | 基准 |
|----------------|----------------|--------------|-----------|
| 年化收益率 | 25.62% | 15.69% | 2.43% |
| 年化波动率 | 28.68% | 29.34% | 26.77% |
| Sharpe比率 | 0.89 | 0.53 | 0.09 |
| 最大回撤率 | 29.46% | 46.17% | 43.10% |
| 年化超额收益率 | 19.48% | 10.09% | |
- ChatGPT3.5标签策略表现更优,说明准确标签对提升策略收益关键。
以ChatGPT3.5结果为标签微调ChatGLM2效果显著提升 [page::15][page::16]

- 微调后样本内准确率达到0.96,样本外准确率提升至0.84,F1-score约0.8。
- 微调模型事件驱动收益曲线单调性及区分度显著改善。
- 同期FinBERT微调后表现虽提升,但准确率(0.81)和F1-score(<0.8)略逊于ChatGLM2-LoRA。
ChatGLM2-LoRA微调舆情精选策略表现优异 [page::16][page::17][page::18]

| 指标 | ChatGLM2-LoRA策略 | ChatGLM2策略 | FinBERT微调策略 | 基准 |
|------------------|-----------------|--------------|------------|--------|
| 年化收益率 | 36.55% | 15.69% | 32.70% | 2.43% |
| 年化波动率 | 30.70% | 29.34% | 30.27% | 26.77% |
| Sharpe比率 | 1.19 | 0.53 | 1.08 | 0.09 |
| 最大回撤率 | 29.08% | 46.17% | 32.01% | 43.10% |
| 年化超额收益率 | 30.52% | 10.09% | 26.38% | |
| 跟踪误差 | 34.03% | 32.48% | 33.93% | |
| 信息比率 | 0.90 | 0.31 | 0.78 | |
| 超额最大回撤 | 28.36% | 40.74% | 33.91% | |
- 策略对手续费较敏感,单边千分之二手续费后超额收益仍达12.17%,表现稳定。

结论与风险提示 [page::18]
- 大语言模型微调结合高质量标签能显著提升金融领域模型推理与判断能力。
- ChatGLM2-LoRA通过ChatGPT3.5标签微调后的医药行业舆情精选策略具备优异的超额收益表现。
- 策略受新闻文本覆盖度限制和交易成本影响,需动态调整模型和策略以应对市场变化。
- 大语言模型回答仅基于上下文概率预测,存在一定不确定风险,用户应谨慎使用。
深度阅读
ChatGLM的医药行业舆情精选策略 大模型微调指南 - 深度分析报告
---
一、元数据与报告概览(引言与报告概览)
报告标题:《Alpha掘金系列之七:ChatGLM医药行业舆情精选策略 大模型微调指南》
作者:高智威,王小康
发布机构:国金证券股份有限公司
发布时间:2023年9月11日
研究主题:基于国产开源大语言模型ChatGLM2,通过微调技术提升在医药行业舆情文本分析中的表现,实现高效舆情精选策略构建及超额收益率预测。
核心论点:
报告阐述了利用大语言模型微调(特别是LoRA参数高效微调方法)作为提升模型专业领域推理及判断能力的手段,通过以ChatGPT3.5输出结果作为“软标签”对国产开源模型ChatGLM2进行微调,显著提升其在医药行业新闻文本情绪分析及股价超额收益率预测的能力。最终构建的医药行业舆情精选策略,在不计交易成本下年化超额收益率高达30%左右,即使考虑了手续费影响,依然能实现约12.17%的年化超额收益。
报告目的是:探究如何在保证数据安全、控制成本的前提下,借助大模型微调,实现国产开源模型与商业闭源模型(ChatGPT)相媲美的领域应用能力,从而为投研决策提供有效辅助。
---
二、逐节深度解读(章节详解)
1. 大语言模型的微调方式简介
报告从ChatGPT和ChatGLM的使用体验出发指出,通用大模型虽强,但在金融领域面临专业知识缺失、隐私及使用成本高的问题。微调(Fine-Tuning)技术对预训练模型进行定向训练,能显著提升特定领域的表现。
- 介绍了参数高效微调PEFT技术,包括:
- Prompt-Tuning和Prefix-Tuning:在输入层或多层插入可训练虚拟token,训练成本较低但交换信息受限。
- LoRA(Low-Rank Adaptation):核心思想冻结主模型参数,仅训练低秩矩阵,资源消耗低且效果贴近全量微调。
- P-Tuning:对soft prompt的改进,提升交互能力,微调效果在不同规模模型中接近全量微调。
- LoRA具体原理(图表4)展示了训练过程中仅更新低秩矩阵A、B并将其与预训练参数W合并,显著减少了训练参数量和GPU显存占用。同时,通过实验(图表5)证明即使用数百维的本征维度r即可达到超过90%的性能。
- 微调的步骤包括任务定义和数据收集、数据加载格式化、tokenize及padding/truncation、模型训练(结合超参数设置如learningrate、batchsize、梯度累积与混合精度训练)、评估(BLEU、ROUGE等指标)[page::0-6]
2. 微调实践案例
使用ChatGLM2-6B模型,以少量样本快速“灌输”认知,通过问答演示微调前后模型对身份信息回答的准确提升(图表11与12)。进一步以金融一级行业分类为训练样本,模型能输出准确的专业知识回答(图表13),显示微调对领域知识掌握能力增强。
并展示了不同微调方式对GPU显存的占用(图表10),证明LoRA在6B模型上最高Batch_Size为16时只需28GB显存,远低于全量微调。
这为后续在医药行业舆情文本上的大规模微调奠定实践基础[page::6-8]
3. 医药行业新闻文本及标签构建
本报告重点聚焦医药领域,是基于该领域新闻与业绩关系较为直接,逻辑链清晰,适合模型学习与推理。通过数库获取2014-2022年约28000条个股相关医药新闻,涉及448只股票,文本关键词覆盖行业核心词汇(图表15,词云)。
医药新闻对个股覆盖度随时间递增,超过20%(图表16)。这种覆盖度虽有限,但数量足够构建模型训练数据集。
在尝试使用股价未来超额收益率直接作为模型训练标签进行微调时,发现模型训练集内loss逐渐下降,但验证集loss不降反升,并且样本外准确率几乎和随机模型持平(样本外准确率0.34),说明文本和收益率的直接对应关系较弱,且因果关系复杂(图表17-19)。
结论:文本数据抽象成情感分类再用作策略信号更为科学(图表20)[page::8-11]
4. 利用ChatGPT3.5标签训练ChatGLM2,模型输出与策略表现对比
借助上海财经大学FinEval基准确认ChatGPT及GPT-4在金融领域的强大性能(排名领先各国产模型,图表21),报告将ChatGPT3.5针对医药新闻的情绪分类结果作为ChatGLM2的训练标签,采用LoRA微调,目标是令ChatGLM2达到接近ChatGPT3.5的逻辑推理及标签判别能力。
- ChatGPT3.5与ChatGLM2在医药新闻标注上格式和结果的对比(图表22-23),发现ChatGLM2偶有多余语句出现,但整体能输出合理标签。
- 与FinBERT进行对比(FinBERT为金融领域BERT微调模型),三者标签数量分布存在差异(图表24):ChatGLM2偏向积极,中立标签极少;FinBERT消极标签相对较多,分布均衡。
- 标签与后续5日股价超额收益率的对应关系显示,ChatGPT3.5与ChatGLM2标签在收益率单调性上较好,负面标签对应明显亏损,正面标签呈正收益,FinBERT效果接近无效(图表25-28)。
基于此,设计周频调仓策略,取新闻当周内标签加权,交易规则以及阈值设定详见报告,回测2018年7月至2022年末,结果显示ChatGPT3.5标签策略表现优异,ChatGLM2原始标签策略表现一般(图表29-30)[page::11-15]
5. 微调ChatGLM2获得接近ChatGPT3.5性能的模型
采用LoRA对ChatGLM2微调,使用前10000条消息(时间顺序)及ChatGPT3.5标签训练,结果:
- 样本内准确率高达96%,样本外达84%,F1均大幅提升,较直接收益率标签训练提升明显(图表31-32)。
- 微调后模型事件驱动的超额收益明显,标签的单调性和区分度大幅改善(图表33)。
- 对FinBERT进行全量微调,虽准确率提升至81%,但仍略逊于微调后的ChatGLM2(图表34)。
- 基于微调后模型输出构建医药舆情精选策略,年化收益36.55%,超额收益30.52%,Sharpe达1.19,信息比率0.9,与未微调模型及微调FinBERT策略明显优越(图表35-37)。
考虑交易手续费敏感性,通过换手率缓冲调整,单边手续费0.2%时策略年化超额收益达到12.17%,表现仍然稳健(图表38-39)[page::15-18]
---
三、图表深度解读
- 图表4(LoRA训练原理)清晰展示了LoRA技术的低秩矩阵逼近思想,通过冻结原权重,训练极少参数A和B,显著降低了微调资源需求。图表伴随数学公式准确描述LoRA计算过程。
- 图表5(本征维度与准确率)证明只训练有限维度的低秩矩阵能达到接近全量微调效果,关键技术指标为达到90%全量微调准确率所需的秩r大小,该实验基于RoBERTa、BERT模型经典问答任务(MRPC、QQP)。
- 图表10(微调显存消耗)对比LoRA与P-Tuning在不同Batch Size和精度下GPU显存占用,LoRA在INT4下最低需8GB,一般FP16批大小16时28GB,远低于全量微调的数十GB需求。
- 图表15(医药个股新闻词云)展示医药行业新闻的高频词汇,“药品”、“增长”、“创新”等明显,体现了文本内容的专业性与主题聚焦,有利于模型学习行业特征。
- 图表16(个股新闻覆盖度)展现新闻逐年增加股票覆盖比例,2022年底达到约20%,说明数据样本量逐步完善,有利于微调训练的有效进行。
- 图表17(以超额收益率为标签训练的loss曲线):训练loss下降而验证loss不上升,说明模型过拟合训练数据但泛化能力差,文本与收益率直接映射不理想。
- 图表18-19(训练样本内外混淆矩阵)揭示了训练准确率与泛化表现的巨大差距,尤其样本外准确率接近随机,反映收益率作为标签难以指导文本分类训练。
- 图表21(FinEval模型排名)突出ChatGPT与GPT-4在中文金融领域的领先地位,为本方案以ChatGPT标签为基准提供理论背景。
- 图表24(标签数量分布)及图表25(标签分类对应超额收益)体现不同模型输出倾向差异和标签的相关投资价值,ChatGPT与ChatGLM2输出的标签更能区分收益走向。
- 图表29-30(医药策略净值及绩效指标)深度揭示基于ChatGPT3.5标签的策略优于基于ChatGLM2原标签,具有显著的年化超额收益提升和风险调整收益优势。
- 图表31-33(微调后混淆矩阵及事件驱动收益)直观表现微调提升模型分类准确度和收益预测的能力,显示精细训练显著改进模型认知。
- 图表35-37(微调后医药行业舆情策略净值与绩效)呈现微调ChatGLM2后的策略远超原始模型和FinBERT,体现投资策略的有效性和实用价值。
- 图表38-39(手续费敏感性测试)分析策略交易频繁带来的费率风险影响,验证策略在实际交易成本下的持续盈利能力。
---
四、估值分析
本报告无直接企业财务评价及传统估值模型应用,而是聚焦于模型训练与投资策略构建的量化绩效评估。
关键估值指标为策略年化收益率、年化波动率、Sharpe比率、最大回撤率、超额收益率、信息比率等,均围绕策略风险调整收益进行评价。
模型微调与标签质量直接影响策略的质量和回报率。使用ChatGPT标签微调极大提升了ChatGLM2的推理能力,进而提升策略表现。
---
五、风险因素评估
- 模型回答准确性的不可保证性:由于大语言模型基于上下文预测机制,生成内容存在误导可能,投资决策需谨慎。
- 微调配置依赖:不同微调方式、超参数设置和训练数据质量高度影响最终模型表现,过拟合风险不可忽视。
- 市场环境变化风险:若出现超出模型预期的市场剧烈变化,历史推理逻辑可能失效,需要持续微调适应。
上述风险均影响舆情策略的稳定性和有效性,并需投资者密切监控和动态调整操作。
---
六、批判性视角与细微差别
- 报告充分说明了用未来收益率直接作为标签训练模型失败的尝试,反映了技术团队对问题本质的准确判断,显示分析严谨。
- ChatGLM2较ChatGPT依旧存在一定差距,尤其表现在标签输出多余语句、分类分布偏积极等方面,说明微调效果虽佳但模型架构限制仍存。
- FinBERT虽为金融专用BERT模型,但表现逊色于经过特殊设计与微调的ChatGLM2,凸显开源大语言模型的潜力和前景。
- 报告里多次强调新闻覆盖率和换手率对策略效果的限制,体现对数据和实盘条件的现实考量,使结论更具参考价值。
- 似乎全部强调了微调带来的提升,但对于负向影响及微调失败案例描述较少,建议关注实际应用中的潜在坑点。
---
七、结论性综合
本报告以大语言模型微调为核心,通过细致的技术剖析和实证对比,揭示了使用PEFT微调中的LoRA方法对国产开源模型ChatGLM2提升专业领域表现的可行路径。
初步尝试用未来超额收益做标签训练未果,映射关系弱且易过拟合。最终利用更高质量的ChatGPT3.5输出的舆情分类作为软标签,令ChatGLM2微调成功学习到了近似于ChatGPT的推理和判断能力,达成了投研辅助工具级别的性能突破。
微调后模型在医药新闻舆情上的表现优异,分类标签与未来股价超额收益的单调性较好,构建的周度舆情精选策略不计手续费可年化跑赢基准30%以上;考虑手续费后依然具备12.17%年化超额收益,表现稳定且风险调整后超越原始模型和FinBERT模型。
报告系统性展示了大语言模型微调的原理、实践步骤、案例结果,并结合金融文本应用场景做了翔实的数据分析和策略回测。充分印证了通过合适、可靠的标签源提升国产开源大模型,既能提高投资研究效率,又能保障数据隐私和使用成本。
这一发现为金融量化领域开辟了新的智能化辅助路径,具有显著的实用价值和推广前景。报告也提醒了实际部署中的多种风险,呼吁持续关注模型更新与动态适应能力。
---
参考图表索引
- 图表4、5:LoRA微调原理及BERT本征维度实证
- 图表10:不同微调方式显存消耗
- 图表15、16:医药行业新闻词云与个股覆盖度
- 图表17-19:以超额收益率为标签训练的Loss及准确率对比
- 图表21:FinEval大模型金融测评排名
- 图表24、25:模型标签数量分布及对应未来5日超额收益率
- 图表29-30:基于ChatGPT3.5和ChatGLM2策略的净值曲线与绩效指标
- 图表31-33:微调后的ChatGLM2样本内外混淆矩阵及事件驱动收益
- 图表35-37:微调后ChatGLM2与其他模型策略表现对比
- 图表38-39:不同手续费率下模型策略净值与指标变化
---
总字数统计
本报告全面细致地解构了18页以上的内容,正文字数超2500字,附加图表解读确保分析的深度和完整性。
---
如需对报告某具体章节或图表做更深入剖析,欢迎进一步交互指令。