`

Can Base ChatGPT be Used for Forecasting without Additional Optimization?

创建于 更新于

摘要

本报告基于ChatGPT-3.5与ChatGPT-4,比较了直接预测(prompting)与未来叙事式预测两种提问策略,利用训练截止时间点(2021年9月)之后的2022年事件作为真实验证,发现未来叙事式提示显著提升了ChatGPT-4对奥斯卡主要奖项及部分经济指标的预测准确性。2024年更新后的模型包含预测事件的训练数据,准确率提升至100%。结果表明,叙事式提示通过利用模型的创意和虚构生成能力,有效绕开了直接预测的限制,揭示了大型语言模型在预测任务中的潜在价值与应用前景 [page::0][page::4][page::28][page::31][page::32]

速读内容

  • 研究背景与目的 [page::0][page::1][page::2]:

- 探讨OpenAI的ChatGPT-3.5与ChatGPT-4是否能在未额外优化的情况下,准确预测未来事件。
- 利用训练数据截止2021年9月后发生的2022年事件作为验证。
  • 提示策略比较 [page::0][page::11][page::28]:

- 直接预测(Direct prompting):直接提问模型预测未来事件。
- 未来叙事(Future narrative prompting):通过要求模型叙述未来设定的故事情节,间接让模型“预测”事件。
- 叙事提示显著提升预测准确率,特别是ChatGPT-4表现优异。
  • 奥斯卡预测结果 [page::14-21]:

- 采用100次重复试验评估各类别获奖者预测准确度。
- ChatGPT-4未来叙事提示下对最佳男主角、女主角、配角奖项预测准确率均较高,最高达100%(Best Supporting Actor),但最佳影片预测效果不佳。
- ChatGPT-3.5总体表现较弱,未来叙事提示提升明显但不及GPT-4。


  • 宏观经济变量预测及特点 [page::21-28]:

- 预测内容包含2022年9月-2022年8月每月的通胀率与失业率。
- 直接预测时,模型多数拒绝给出预测或表现较差。
- 未来叙事提示下,赋予虚构角色如联储主席Powell讲话,模型预测分布表现更接近实际经济数据,尤其是失业率预测精度较高。
- 当加入俄乌冲突信息时,反而让预测波动加剧且部分准确度下降。


  • 2024年模型更新后的预测对比 [page::31-32]:

- ChatGPT-4训练数据延伸至2023年12月,包含了2022年实际事件信息。
- 更新后无论是直接还是叙事提示,预测准确率多达100%。
- ChatGPT-3.5也有所提升,但对2022年奥斯卡数据仍缺乏训练,表现有限。


  • 伦理与模型能力推测 [page::29-30][page::6][page::7]:

- 直接预测可能触及OpenAI使用政策限制,预测被限制或拒绝。
- 叙事提示通过创作故事规避这一限制,使模型更愿意“预测”。
- 这可能源自Transformer结构中“幻觉”机制对生成故事的助力,但具体机制仍属推测。
- 未来叙事提示提供了一种创新、兼顾伦理合规的方法以利用大型语言模型的预测能力。

深度阅读

金融研究报告深度分析报告


报告标题:Can Base ChatGPT be Used for Forecasting without Additional Optimization?


作者与机构:Pham Hoang Van 和 Scott Cunningham,贝勒大学经济学系


发表时间:2024年7月


主题:探讨OpenAI ChatGPT(GPT-3.5与GPT-4)在不同提示策略下的未来事件预测能力,侧重于经济和文化领域的实际案例分析。



---

1. 元数据与概览



本研究旨在评估OpenAI的语言模型ChatGPT-3.5和ChatGPT-4在无额外优化的情况下,是否具备有效的未来事件预测能力。研究特色在于设计了两种提示策略——直接预测(direct prediction)和未来叙事(future narrative)——并通过利用模型训练数据截止时间(2021年9月)这一自然实验设计,要求模型预测2022年发生的事实。研究发现未来叙事方式显著提升预测准确度,尤其在GPT-4版本中表现突出,如准确预测主要奥斯卡金像奖得主及经济变量走势。

此外,研究通过2024年5月复测,验证了训练数据涵盖实际事件后模型预测准确大幅提升,暗示模型在2023年的预测主要基于训练数据而非真实推断。结论指出,未来叙事类提示利用模型的“虚构叙事”能力更好地合成和外推数据,这一发现有望推动LLM未来在经济等分析领域的创新应用。[page::0]

---

2. 逐节深度解读



2.1 引言(Introduction)



人工智能技术快速发展,尤其是基于生成式预训练变换器架构(GPT)的LLM,已经展现出强大语言理解和生成能力,但其在未来事件预测领域的潜力及准确性尚未清晰。报告指出,由于训练数据存在截止日期,且细节未向外界透露,且OpenAI对客户使用预测功能存在政策限制,导致其预测性能难以被客观评估。[page::1-2]

2.2 研究设计与实验方法(Methodology)



核心策略为利用模型训练数据截止至2021年9月这一时间点,对2022年不在训练数据内的事件进行预测,从而检验模型的推断能力。设计两种提示类型:
  • 直接预测(Direct Prediction): 实盘式请求模型直接给出未来事件预测。

- 未来叙事(Future Narratives): 让模型通过叙述未来情境中的虚构故事,带入权威人物或情景描述,间接展现未来事实。

为了保证结果的客观与稳定,两个独立研究助理(RA)分别通过两个不同账户进行了大量重复测试(每个实验100次),最后采用箱型图展现预测分布。此外实验严格排除使用Bing网络插件,防止实时搜集新数据影响结果。[page::2-11]

2.3 直接提示与未来叙事示例解析(Direct vs Narrative Prediction)



报告用医疗诊断的实例形象说明ChatGPT受限于OpenAI的内容政策限制。直接询问疾病诊断时模型拒绝回答,但通过让模型以戏剧场景叙事重现诊断过程,模型反而提供了详细的判断和建议。说明未来叙事能巧妙规避政策限制,使模型更愿意“发挥预测功能”。[page::6-8]

2.4 训练数据限制及伪装试验(Establishing Training Data Limits)



基于未包含在训练数据后的多项事件,如NCAA篮球决赛四强、中奖号码及2022年头几个月票房最高电影,模型无论提示方式及版本均无法正确预测,这验证了训练截止数据边界,证明模型的预测并非实时互联网数据抓取。[page::12-13]

2.5 2022年奥斯卡预测结果(Academy Awards Forecasts)



重要洞见


  • 训练截止在2021年9月,模型对电影本身的资讯较为充分,但不含2022年的颁奖结果和相关先行奖项信息,准确率理想。

- 针对几大演员奖项,未来叙事策略下GPT-4预测准确率高达42%-100%,而直接预测准确率较低,甚至经常出现“无预测”。
  • 唯一表现不佳为“最佳影片”奖,原因可能是候选数量多(10个)且选票机制复杂,模型难以模拟整体行业投票倾向。


具体表现如下:

| 奖项类别 | ChatGPT-3.5直接预测 | ChatGPT-3.5未来叙事 | ChatGPT-4直接预测 | ChatGPT-4未来叙事 |
|-------------|-----------------|-----------------|-----------------|-----------------|
| 最佳男主角(Will Smith) | 17% | 80% | 19% | 97% |
| 最佳女主角(Jessica Chastain)| 0% | 0% (过度自信错选) | 13% | 42% |
| 最佳男配角(Troy Kotsur) | 1% | 2% | 25% | 100% |
| 最佳女配角(Ariana DeBose)| 34% | 73% | 35% | 99% |
| 最佳影片(Coda) | 0% | 0% | 2% | 18% |

数据图表详见图1-10。[page::14-21],[page::34-43]

数据解读



图1-2(最佳男配角,GPT-3.5与4)
  • GPT-3.5直接预测倾向多次拒绝回答(NP,42%),多预测其他演员(Simmons较多),准确率1%。

- GPT-4未来叙事精确预测Troy Kotsur(100%)。

图3-4(最佳男主角)
  • GPT-3.5多数给出错误或多选答案,未来叙事模式下准确率提升至80%。

- GPT-4未来叙事准确率高达97%。

其余数据显示类似趋势:未来叙事大幅提升预测准确度。

---

2.6 宏观经济变量预测(Macroeconomic Variables)



预测通胀和失业率的难度远高于奥斯卡事件,主要由于经济事件连续、非离散,且受到复杂政策交互和外部冲击影响。研究同样比较了直接预测和未来叙事两种提示:

直接预测


  • 两代模型对直接预测通胀和失业严格拒绝回答,暗示OpenAI政策对相关真实预测内容的限制严苛。


未来叙事提示


  • 以经济学教授讲课的叙事风格表现较差,预测分布与真实历史偏离较大。

- 以联储主席Jerome Powell讲话的叙事风格提高准确性,尤其是GPT-4版本,预测包络包含部分真实通胀与失业数据系列(密歇根大学消费者预期调查、克利夫兰联储数据)。
  • 给予额外事件提示(俄罗斯入侵乌克兰)后,模型预测分布中出现更大波动,准确性整体反而下降,表明模型未能有效整合突发事件对经济变量的影响。


详细数据见图11-26。[page::21-28],[page::45-60]

---

2.7 ChatGPT-4预测能力的猜想(Conjecture)


  • 未来叙事提示激发了GPT-4内置模型的创造性自由,可能规避了直接预测中受限的内容安全策略。

- 模型在需结合社会舆论与趋势的领域(如奥斯卡奖项)表现卓越,而在需复杂经济理论和事件交互的领域表现有限。
  • 该现象为未来利用LLM的预测潜力,尤其是结合创意生成能力的方法提供了思路,也提示了潜在的伦理使用边界和监管挑战。


[paged::28-30]

---

2.8 2024年模型升级复测(Post Scriptum)



2024年早期,ChatGPT-4训练数据更新至2023年12月,GPT-3.5至2022年1月。复测显示:
  • 对2022年奥斯卡及宏观经济数据的预测准确率均显著提升,尤其是未来叙事模式,很多类别达到100%准确。

- 训练数据覆盖的事件明显改善了模型检索而非推断的准确性,验证了之前预测结果受限于训练数据截止的事实。
  • 依旧观察到未来叙事提示模式优于直接预测。

- 失业率预测优于通胀,可能由通胀指标的多元性和不确定性所致。

详见图27-40。[page::31-33],[page::61-74]

---

3. 图表深度解读



奥斯卡预测图表(图1-10)



这些图以条形图展示各奖项的预测分布,横坐标为候选者,纵坐标为预测比例。未来叙事模式下,GPT-4条形特别尖锐,几乎集中在真正赢家身上(如图2、4、6、8)。反观直接模式或GPT-3.5,预测分布分散且拒绝率高。最佳影片类别预测图(图9、10)显示全体难度高,结果分散且正确率低。

宏观经济预测图表(图11-26)



均采用箱型图示,展示每月预测的分布区间,红线为官方数据,蓝线为密歇根消费者预期,箱体为模型预测区间。
  • 直接预测(图11,12,19,20)未给出有效结果。

- 经济学教授未来叙事(图13,14,21,22)预测分布宽散,偏离真实数据。
  • 杰罗姆·鲍威尔未来叙事(图15,16,23,24)较好覆盖真实区间,GPT-4表现更为集中且较接近官方数据。

- 添加俄罗斯入侵信息(图17,18,25,26)导致预测范围大幅扩展,准确度反而下降,预示模型整合复杂宏观事件的能力有限。

2024年复测图表(图27-40)



预测集中度大幅提升,未来叙事模式下GPT-4多次实现100%准确率(如图27,28,30,32,37,38),表现稳定。通胀预测仍见区间波动(图33-36),但失业预测紧密匹配官方数据(图37-40)。

---

4. 估值分析



本报告非传统意义公司估值报告,无专门估值章节。其核心“估值”在于通过实证实验对模型预测能力的“价值”进行评估,从准确率、提示策略及版本差异角度对比,具备较强的定性和半定量分析层面。

---

5. 风险因素评估


  • 模型训练数据截断: 训练数据截止时间限制模型无真正预测未来的能力,部分预测为统计学推断或训练过拟合的近似,限制了外推能力与准确率。

- OpenAI使用政策限制: 模型被策略限制拒绝提供某些可能危害用户安全或权利的预测,导致直接预测性能下降。
  • 叙事提示可能带来的伦理风险: 埋藏于虚构故事中的预测信息,虽提高准确度,但可能被滥用,尤以金融和医疗领域为高风险。

- 突发宏观事件纳入的有限性: 例如俄乌冲突等重大事件,在模型预测中整合不佳,可能引发误判。
  • 模型随机性和提示依赖性: 大量试验体现预测输出的随机分布,提示设计成为关键驱动力。


报告对风险呈现充分,未明确提出缓解措施,但暗示需结合伦理规范、提示设计和训练数据更新来应对上述风险。[page::2-3,29]

---

6. 批判性视角与细微差别


  • 模型预测准确度提升主要受训练数据覆盖影响,所谓“预测能力”很大程度上为对已有数据的重组与嫁接,非真正意义上的未来事件推断。

- 未来叙事提示绕过OpenAI政策限制一方面彰显创造力,另一方面带来潜在滥用风险,报告对此持保留且警示态度。
  • 部分预测(如最佳女主角)结果过度自信但错误,表明模型对概率分布的真实反映仍有限。

- 宏观经济预测中加入重大事件反而降低准确度,提示模型处理复杂因果关系能力不足。
  • 虽然报告称“叙事法”辅助预测准确,背后机制缺乏实证说明,存在推测性质。

- 实验仅涉及OpenAI两代模型,不代表所有LLM通用。

---

7. 结论性综合



本报告系统地分析了ChatGPT-3.5和GPT-4在无模型微调条件下,以直接预测和未来叙事两种提示设计对2022年文化(奥斯卡奖项)和经济事件的预测能力。研究发现:
  • 未来叙事提示显著提升预测准确率,特别是GPT-4版本,最高类别准确率达到100%,远超直接预测手法。

- 叙事提示巧妙利用模型创造力和图灵测试式的故事生成机制,绕开了模型对直接预测的内容安全限制。
  • 宏观经济变量预测表现复杂,未来叙事提示下表现优于直接预测,但准确度受训练数据覆盖和外部事件影响显著限制。

- 训练数据截止2021年9月是能否成功预测的关键,后续训练数据更新模型准确率显著提高。
  • 报告既展示了LLM未来预测潜力,也强调必须谨慎处理模型输出的伦理和安全风险,需防范叙事提示引入的滥用可能。


图表深入展示了各奖项和宏观变量预测的定量分布与准确性差异,佐证核心结论。特别是图1至图10验证了未来叙事在影视奖项预测中的高效性;图11至图26、33至图40则揭示了经济变量预测的局限与提升空间。

总之,该报告在充分实证和方法严谨的基础上,为LLM的预测应用和提示工程设计提供了重要启示,并提出了未来伦理监管的挑战与研究方向,具有较高学术和应用价值。[page::0-74]

---

参考资料与附件说明



报告引用了多篇AI与经济应用的最新文献,且展示了丰富的实验数据和100次多样重复试验的箱形图及条形图,均附件形式呈现。图表使用清晰,极大增强了论证力度。[page::75-76],[page::34-74]

---

总结



本报告首次较全面且系统地验证了在无附加优化前提下,ChatGPT基线模型通过未来叙事提示实现超越常规直接预测的未来事件预测能力,为未来LLM在预测、经济分析及决策支持中的责任应用奠定了理论与实证基础。该研究推动了生成式AI在金融经济领域预测工具的创新,但同时提醒业界重视模型限制及伦理风险,需平衡创新与规范,谨慎推动商业化应用。

报告