`

了解 GPT:训练篇德邦金工文献精译第十一期

创建于 更新于

摘要

本报告详解了GPT助手训练的四大核心阶段:预训练、监督微调、奖励建模和强化学习(特别是基于人类反馈的强化学习RLHF)。预训练阶段耗费最大资源,模型从海量语料中学习语言表示;监督微调利用高质量任务数据提升模型针对特定任务的表现;奖励建模通过人工排序优化输出评分;强化学习阶段通过PPO算法在奖励模型指导下调整策略。RLHF显著提升了模型性能与评估结果的一致性,但在创新多样性任务中基础模型仍具优势。报告结合多个关键图表展示训练细节与模型性能评价,为进一步理解和应用大型语言模型训练提供了系统指导[pidx::0][pidx::3][pidx::4][pidx::5][pidx::12][pidx::13]

速读内容

  • 2023年微软Build大会中,OpenAI创始人Andrej Karpathy介绍了GPT模型当前状态与未来,集中阐述了GPT助手训练的四个阶段:预训练、监督微调、奖励建模和强化学习 [pidx::0][pidx::3]。



  • 预训练阶段占比99%的计算资源使用,采用海量互联网数据进行无监督语言模型训练,任务为在给定上下文后预测下一个词,标记化技术将文本转换为整数,输入以$(B,T)$数组形式批量处理,模型输出概率分布用于指导权重更新。以Meta LLaMa为例,训练语料涵盖CommonCrawl等多类数据,着重维基百科和书籍数据,模型输出随训练迭代趋于逻辑化 [pidx::4][pidx::5][pidx::6][pidx::7]。





  • 监督微调利用任务相关的高质量标注数据进行少量GPU和时间的模型参数调整,适用文本分类、文本蕴含、语义相似度和多项选择等任务。该阶段通过人类专家设计样本使模型适应特定应用场景,如问答系统,提升模型针对性表现 [pidx::8][pidx::9][pidx::12].



  • 奖励模型由人工对模型输出进行排序产生训练样本,结合监督微调模型输出,绿色标记作为奖励信号,为Transformer提供奖励读出,损失函数促使奖励预测与人工排名保持一致。此过程保证生成内容质量优化,具体实例详见图14、15 [pidx::9][pidx::10][pidx::11].



  • 强化学习阶段,模型基于奖励模型反馈迭代生成更优输出。PPO算法调整生成概率,优质输出概率提升,劣质输出受到惩罚。通过大量迭代训练,模型可持续改进策略,实现RLHF。人工评测显示RLHF模型效果优于基础模型和纯监督微调模型 [pidx::11][pidx::12]。



  • RLHF优势在于利用人类评价加强评估过程,改进生成结果的质量。评估优劣往往比直接创造优秀内容简单,模型生成多个版本由人类反馈筛选,提高输出准确性和适用性。但RLHF模型输出多样性较低,基础模型反而在需要创新和广泛探索的任务表现更好 [pidx::12][pidx::13].



  • 目前,基于RLHF技术的GPT-4、Claude和GPT-3.5等模型在多项公开排行榜中居领先地位,广泛认可其在人工智能语言模型领域的优越表现 [pidx::13]。


  • 总结:GPT训练框架融合了大规模预训练和多阶段微调与优化策略,采用RLHF进一步提升了语言模型的实际应用效果。尽管RLHF具备显著优势,但应权衡任务需求,以选择更适合的模型类型和训练策略,推动大语言模型更好地为金融科技及各行业服务 [pidx::13].

深度阅读

报告详尽分析报告



---

1. 元数据与报告概览


  • 报告标题:了解 GPT:训练篇——德邦金工文献精译第十一期

- 作者:肖承志(证券分析师,资格编号 S0120521080003)
  • 发布机构:德邦证券研究所

- 发布日期:2023年5月23日后不久(依据微软Build 2023大会时间)
  • 主题:GPT(生成式预训练变换器)模型的训练方法,尤其聚焦训练流程的四个阶段,包括预训练、监督微调、奖励建模和强化学习(特别是基于人类反馈的强化学习RLHF)

- 核心论点
- GPT模型训练是由四大关键步骤组成,预训练阶段是资源消耗最大、时间最长的阶段。
- 监督微调、奖励建模和强化学习则是细化和提升模型表现的重要手段。
- 引入人类反馈的强化学习(RLHF)极大提升了模型的效果,尤其在提升生成内容的质量和实用性方面扮演了核心角色。
- RLHF不是万能的,它在高度创新、需要发散思维的任务中,有时不如基础模型表现好。
  • 投资评级:本文没有传统的金融投资评级,主要是技术层面深度解读,风险提示覆盖数据安全、滥用及道德伦理风险等[pidx::0][pidx::3][pidx::12].


---

2. 逐节深度解读



2.1 微软开发者大会演讲引入


  • 报告基于微软Build 2023大会OpenAI创始人Andrej Karpathy的“State of GPT”演讲。

- 演讲重点介绍了GPT训练的现状和未来方向,着重于理解其训练流程[pidx::3].

2.2 GPT助手训练流程整体介绍


  • GPT训练有四个主要步骤:

1. 预训练(Pretraining):在大规模未经标注的互联网文本数据上进行无监督语言建模,约占计算时间99%,使用数千GPU数月完成,旨在学习语言结构和模式。
2. 监督微调(Supervised Finetuning, SFT):用少量高质量标注数据指导模型适配具体任务,训练时间与资源需求远低于预训练。
3. 奖励模型训练(Reward Modeling, RM):人类标注员对模型生成的多种输出排序,基于此训练一个奖励模型以量化输出质量。
4. 强化学习(Reinforcement Learning):利用奖励模型作为反馈,应用PPO算法调整模型策略,以获得更优输出。

总结表1详细列出了各阶段所需计算资源及训练时间差异,预训练是运算瓶颈,后续环节主要调优和强化。

图3流程图进一步明确了数据来源、算法和模型之间的关系,例如RM模型是在监督微调模型基础上初始化,[pidx::3][pidx::4].

2.3 预训练详解


  • 数据收集:大量数据来源包括CommonCrawl(爬虫抓取网页)占比最高(67%采样比例)、C4(15%)、GitHub代码、维基百科、书籍、ArXiv论文及StackExchange等。每类数据的使用次数(Epochs)和硬盘空间亦列出(图5),指示质量和重要性。

- 维基百科和书籍数据因文本质量较高,被训练多轮以增强模型理解与语言表现。
  • 标记化(Tokenization):将文本转换成整数序列。图6显示了如何将英文文本分割成可被模型处理的token,如单词片段和词素,再映射为整数。

- 输入格式和训练机制:图7-8揭示训练中单批次(Batch)输入格式为(B,T)维度矩阵(B为样本数,T为最大上下文长度)。预训练目标是预测序列中的下一个token,利用上下文信息(黄色)预测目标(红色)token。
  • 训练效果:图9通过莎士比亚语料训练展示模型迭代过程中输出文本质量提升的直观例子,表明模型逐渐习得语言规则和写作技巧。

- 当前主流预训练模型概览:图10与图11列出OpenAI、Google、Meta、百度等机构关键模型及其开源情况,展示领域发展和多样化趋势,如GPT-3、PaLM、LLaMA等[pidx::5][pidx::6][pidx::7][pidx::8].

2.4 监督微调(SFT)


  • 在预训练基础上,用小型高质量数据集进行任务特定的微调,覆盖文本分类、文本蕴含、语义相似度、多项选择题等多种NLP任务(图12)。

- 微调阶段采用标注有明确输入输出对的人类编写数据,提升模型在具体任务中的理解和表现能力。
  • 图13说明了监督微调数据格式,包括prompt和预期response示例,强调人工选取和标注的重要性,从而增强实用性和准确性[pidx::8][pidx::9].


2.5 奖励建模(RM)


  • 模型输出多个答案后,由人工评估员对其进行排序(图14),数据用于训练奖励模型,使其能预测输出的“人类偏好”分数。

- 图15示例中不同颜色标记(蓝色提示tokens,黄色模型补全,绿色特殊奖励token)展示奖励模型的训练输入结构。
  • 该过程指导模型产出更符合人类价值和需求的输出,解决传统概率最大化生成时可能产生的低质量内容问题[pidx::9][pidx::10][pidx::11].


2.6 强化学习(RL)


  • 利用奖励模型反馈,采用PPO(近端策略优化)算法调整模型,以提高奖励得分及整体输出质量(图16)。

- 训练目标是让高质量输出概率增加,低质量输出概率下降,持续迭代提升模型表现。
  • RLHF模型利用人类对输出的评价,结合奖励模型和强化学习持续优化,成为当前性能最优的训练方式之一。

- 图17实验结果表明,引入RLHF的模型(如InstructGPT)在人工评估中整体胜率远超未引入该机制的基本模型和单纯监督微调模型;且小模型经RLHF训练后甚至能超越大规模基本模型(如13亿参数RLHF模型胜过1750亿参数GPT-3基本模型)。
  • 图18用写俳句例证强化学习评估任务比创造任务简单的本质,解释了RLHF为何能显著提升质量。

- 该部分强调RLHF固然优越,但基础模型因输出的多样性(熵)更大,适合需要高创造性的任务(图19)。
  • 排名前几的主流大语言模型(图20)均采用RLHF,验证了其技术领先性和主导地位[pidx::11][pidx::12][pidx::13].


---

3. 图表深度解读


  • 图1、2:OpenAI创始人和演讲PPT封面,形成起承转合,设置报告技术语境。

- 表1+图3:详细说明训练各阶段投入资源、算法及数据集特点,预训练资源耗费巨大。
  • 图5:LLaMA预训练数据分布,彰显数据来源多元且对不同数据的训练轮数不同,反映质量权衡。

- 图6:标记化过程直观演示文本转令牌和数字,模型仅能处理数字序列,而非原始文本。
  • 图7、8:预训练输入阵列结构和下一个标记预测机制,介绍训练过程中核心预测原理。

- 图9:训练迭代对生成文本的影响清晰呈现,代表模型不断学习更有逻辑、连贯文本的能力。
  • 图10、11:叙述主流预训练模型发展脉络及开源现状,显示竞争格局和技术进步。

- 图12:微调架构详示,包括文本分类、蕴含、相似度及多项选择任务,显示模型在多样化任务的适应能力。
  • 图13:监督微调数据输入示例,带实际英文样本,证明数据质量和任务设计对微调效果影响。

- 图14、15:奖励建模的人工排序示例及训练细节,展示如何借助排序改善模型输出。
  • 图16:强化学习训练机制呈现,突出奖励信号如何引导模型调整生成概率。

- 图17:胜率测试图,表明不同模型间RLHF模型具有明显优势。
  • 图18:ChatGPT写俳句示例,展示评判创造质量难度、强调RLHF评判优势。

- 图19:模型输出熵比较,提示RLHF模型更“保守”但质量更高,基础模型多样性更强。
  • 图20:模型排名表,RLHF模型占据前三,进一步佐证技术领先性。


所有图表均紧密呼应文本内容,提供了直观且技术详细的呈现,辅助理解和价值判断。

---

4. 估值分析



本报告属于技术和研究专题性质,涵盖GPT训练方法详尽分解,不包含传统意义上的估值分析(如企业价值、收益预测或估值模型)。因此无具体估值方法或目标价的讨论。

---

5. 风险因素评估



报告末尾指出多个风险提示:
  • 数据不完备和滥用风险:模型训练和推断依赖大量互联网数据,存在数据缺失、偏差或错误,且模型可能被恶意用作生成虚假信息。

- 信息安全风险:模型可能泄露训练数据中的敏感信息,或被利用进行信息攻击。
  • 算法伦理风险:包括生成偏见内容、歧视言论、误导信息等伦理相关风险。


报告未详细展开缓解措施,但明确提示投资决策和技术应用需谨慎关注风险,体现了对AI技术社会责任和合规性的重视[pidx::0][pidx::14].

---

6. 批判性视角与细微差别


  • 报告对RLHF模型的优势与局限性均作明晰说明,未盲目宣扬技术力量,而是客观揭示RLHF模型输出较缺多样性,不适用于所有任务,尤其是具有强探索性和创造性的场景;

- 预训练和微调步骤介绍详尽,但部分技术细节(如具体算法超参数调优策略、硬件配置细节)相对简略,留有拓展空间;
  • 报告架构清晰,逻辑严谨,引用大量权威论文和公开资料,具备较强可信度和技术深度;

- 对图表解读适度,没有断章取义或过度解读;
  • 风险提示部分较为简明,未列举具体概率和历史案例,读者需结合最新技术发展和实际应用判断风险大小;

- 由于为专题技术篇章,缺乏专门的金融市场影响和商业化评估视角,后续关联研究可丰富产业链影响分析和投资机会识别。

---

7. 结论性综合



本报告系统梳理了OpenAI及相关技术机构提出的GPT训练核心流程,重点阐述了四大阶段:预训练、监督微调、奖励建模、强化学习。重点强调了基于人类反馈的强化学习(RLHF)对提升生成质量的决定性作用,并结合多幅技术流程图、典型训练示例及实证测试,呈现了模型训练层面的深厚技术见解。

预训练阶段通过海量互联网文本数据和强大计算资源形成了通用语言表示基础;监督微调利用高质量任务相关数据对模型进行个性化矫正;奖励建模通过人工反馈建立对生成候选输出的定量评分标准;强化学习阶段则基于奖励输入动态调整模型策略,促进生成更符合人类偏好的内容。RLHF模型不仅在人工评测胜率曲线上表现抢眼,还在各大语言模型排行榜技术实力评比中高居前列。

同时,报告坦言RLHF并非万能,高创新度需求场景下基础模型多样性优势明显,提示读者需根据应用场景灵活选择模型。风险提示则提及了数据安全、滥用风险及算法伦理风险,体现出对技术潜在负面影响的审慎态度。

综上所述,本报告不仅符合高级金融工程和人工智能领域的技术研究标准,而且为理解生成式语言模型训练机制、探索其在金融及其他行业的潜在应用奠定了扎实基础。报告内容全面准确,书写严谨,是了解GPT训练技术不可多得的高质量资料。

---

参考文献溯源标注



本文所有结论和解读均基于报告正文内容,具体引用页码标注格式示例:
  • 投资要点及训练流程介绍参见[pidx::0][pidx::3]

- 预训练及其数据集内容详细见[pidx::5][pidx::6][pidx::7]
  • 监督微调及奖励建模详述见[pidx::8][pidx::9][pidx::10][pidx::11]

- 强化学习机制与效果评价见[pidx::11][pidx::12][pidx::13]
  • 风险提示见[pidx::0][pidx::14]


---

(全文约2200字)

报告