Learning to be Homo Economicus: Can an LLM Learn Preferences from Choice Data?
创建于 更新于
摘要
本报告通过标准经济学选择实验验证GPT-4等大型语言模型(LLM)在风险选择中的偏好学习能力,发现GPT展现出高度一致的效用最大化行为,并能够根据风险厌恶程度提供个性化推荐,但在失望厌恶调整方面学习能力有限,提示LLM作为决策辅助工具的潜力与局限 [page::0][page::2][page::7][page::8][page::10].
速读内容
- GPT在风险选择实验中的表现高度一致,基于Afriat临界成本效率指数(CCEI)与EUT偏差指数测量,GPT-4的决策和推荐行为远超人类受试者的一致性水平,表现出近乎完全的效用最大化一致性。

- GPT-D和GPT-R的平均CCEI分别为0.998与1.000,均显著高于人类数据。
- 在提供样本选择数据的GPT-PR条件下,CCEI轻微下降至0.970,但仍远超人类;偏差指数也相应变化,体现了GPT推荐贴近人类平均行为,但仍保有显著差异[page::7][page::8].
- GPT表现出不同于人类的情感倾向,具体表现在失望厌恶参数β的估计中。人类普遍表现为失望厌恶(β>0,平均0.275),而GPT-D和GPT-R表现为“追求欣快”(β<0,分别为-0.106和-0.045),显著偏离人类行为。仅在GPT-PR个性化推荐阶段,失望厌恶参数部分偏向人类水平,均值为0.038。

- 风险厌恶参数ρ方面,GPT表现出整体较低的风险规避,约为0.6,远低于人类受试者的3.259均值。
- GPT-PR样本中,中位风险厌恶达到代表人体样本水平,但极端风险偏好个体的影响限制了学习效果的提升[page::8][page::9].
- 个体层面学习分析表明,GPT对失望厌恶参数的学习能力有限,无论样本量从1到175都未显著改善,回归系数接近零且不显著。

- 相比之下,风险厌恶参数的个体学习表现显著提升,随着样本量的增加,GPT回归估计系数持续上升,表明GPT能够较好捕捉并基于数据调整风险偏好推荐。

- 本文的实验证明,简单的无微调文本提示即可激发LLM对经济偏好的部分学习能力,且GPT-4在个性化表现上优于GPT-3.5,提示未来通过精细化提示工程和模型迭代,LLM有望提升作为金融与经济领域决策辅助工具的效用 [page::10][page::11][page::12][page::13].
- 附录中展示了GPT在决策和推荐中的交互式提示设计流程,样本数据及推荐输出详细格式,以及偏好参数的数学定义及估计方法说明,确保实验结果的透明性与可复制性 [page::16][page::17][page::21].
深度阅读
详尽分析报告:《Learning to be Homo Economicus: Can an LLM Learn Preferences from Choice Data?》
---
1. 元数据与概览
- 标题:Learning to be Homo Economicus: Can an LLM Learn Preferences from Choice Data?
- 作者:Jeongbin Kim, Matthew Kovach, Kyu-Min Lee, Euncheol Shin, Hector Tzavellas
- 发布日期:2024年1月17日
- 研究机构:未明确提及,但涉及近期前沿人工智能领域及经济学实验研究
- 主题:研究大型语言模型(LLM,尤其是GPT-4)在决策支持系统中的表现,着重其是否能通过选择数据学习偏好,特别是在风险偏好和失望厌恶领域的能力。
核心论点与目标:
- 该论文通过复现经济学经典关于风险选择的实验(Choi et al., 2007实验框架),评估GPT作为决策者和推荐系统的表现,检验其选择行为是否符合理性模型(效用最大化理论);
- 研究重点是GPT是否能"学习"个体的偏好,并据此提供个性化投资组合推荐;
- 作者认为GPT表现出高度一致性的风险选择偏好,较接近效用最大化(尤其是预期效用最大化);能够随着用户的风险偏好推荐相应的投资组合,展示个性化推荐潜力;
- 但在"失望厌恶"方面,GPT表现出较大局限,难以准确捕捉用户的此类行为偏好。
---
2. 逐节深度解读
2.1 引言与研究目的
- 关键论点:阐述LLM作为决策辅助工具的潜力及其在多领域中的应用前景,包括投资组合、人才招聘、学术研究辅助等。之前文献表明,基于GPT构建的投资组合能带来超额收益(Lopez-Lira和Tang, 2023),但对其学习个体偏好、个性化推荐能力的系统评估尚缺。
- 方法贡献:除理解GPT当前的行为特征外,本论文发展了一套方法论框架,用以评估GPT基于选择数据的偏好学习和个性化推荐能力。[page::1,2]
2.2 相关文献综述
- 理性选择与披露偏好理论:依托Choi et al. (2007)设计的实验和Afriat的CCEI(关键成本效率指数)测试,结合Echenique等人提出的预期效用偏差指标(D-EUT),以及Gul的失望厌恶(Disappointment Aversion, DA)模型,对偏好结构进行评估。
- LLM应用于经济学:本研究与已有作品(Chen et al., 2023b等)利用相似工具,但重点放在风险选择领域及偏好学习能力。
- 人机交互角度:文中强调GPT未来作为金融机器人顾问(robo-advisor)潜力,以及其理论和行为层面的表现与人的差异。[page::3]
2.3 实验设计与估计方法
- 实验任务:复刻Choi et al. (2014)投资组合实验,GPT需在25轮实验中,将100点资金在两个资产间分配,资产收益均不确定且均等概率发生。
- Prompt设计:
- GPT被赋予两种角色标签:决策者(GPT-D)和推荐系统(GPT-R及GPT-PR,后者带有样例数据供学习)。
- GPT-D处理连续对话,历史投资作为前文上下文传入,实现动态决策模拟;
- GPT-R/PR则独立回答,不保存历史对话,前者无样例数据,后者提供客户过往选择数据作为学习基础;
- 精心设计的文本输入使GPT理解任务规则和数据表结构,保证回应结构化和风格统一(如投资点数限制、响应长度等)。
- 测量指标:
- 采用CCEI衡量选择数据对效用最大化模型的符合程度;
- 引入D-EUT指数具体捕捉对预期效用理论的偏离;
- 恢复两个关键偏好参数:风险厌恶参数$\rho$与失望厌恶参数$\beta$,特别用Gul的失望厌恶模型对选择数据进行参数化拟合。[page::4-7]
2.4 实验结果
2.4.1 一致性与偏离度评估
- GPT-D和GPT-R基础数据的平均CCEI接近1(0.998和1.000),远超人类实验数据,显示极高一致性(图1-(a));相应的D-EUT指标也显示GPT选择行为更加接近预期效用理论,偏离度远低于人类实验组(图1-(b))。
- GPT-PR(使用样本选择数据后推荐)的CCEI略降至0.970,但仍显著优于人类表现,D-EUT指标有所上升,显示更多“错误”,但依然优于人类。
- 这些发现证明GPT在基础行为上一致性极强,但在基于样本数据学习时会出现一定的噪声,行为趋于更像真人。[page::7-8]
2.4.2 失望厌恶与风险厌恶参数
- 人类数据显示明显的失望厌恶($\beta > 0$,均值约0.275),而GPT-D与GPT-R均表现出“追求愉悦”(elation seeking,$\beta<0$),显示其偏好模型与人类根本不同(图2-(a))。
- GPT-PR对失望厌恶参数的估计能稍微向人类靠拢(平均0.038,较人类仍低);
- 相对而言,GPT的风险厌恶参数明显低于人类(平均$\rho$在0.59-0.65),人类均值为3.259,表明GPT较为“冒险”;
- 但GPT-PR的风险参数与人类中间50%的个体接近,暗示在代表性样本区间内,GPT能部分识别风险偏好;
- 极端风险厌恶个体数据可能导致GPT推荐偏离真实偏好。[page::8-9]
图3 深入对比
- 对于去极值处理后的人类样本($\beta$和$\rho$位于25%-75%区间),GPT-PR的两个参数均与人类区间重合,风险参数无显著差异,失望厌恶参数仍略有不足;
- 进一步支持GPT能够在中等偏好区间进行有效学习和个性化推荐。[page::9]
2.4.3 个性化推荐与样本规模影响
- 利用模拟数据,选取100名代表性人群,根据不同样本大小$s=\{1,10,25,75,175\}$,研究GPT个性化推荐参数与人真实偏好的拟合度;
- 对失望厌恶参数$\beta$:
- 散点图及回归系数(图4)显示无显著正相关,且样本规模增长并未提升拟合度,GPT在该维度学习能力有限;
- 对风险厌恶参数$\rho$:
- 规模增长显著提升GPT参数拟合与真实偏好正相关关系(图5),即GPT能根据更多数据准确捕捉风险偏好;
- 样本量10以上即展现一定学习效果,且随着样本增加,回归系数显著上升;
- 结论是GPT可有效从数据中识别并学习风险厌恶程度,但对失望厌恶理解不足。[page::10-12]
2.5 讨论
- GPT如此庞大的模型(估计有1.7万亿参数),研究者提出通过行为分析方法理解GPT的决策模式;
- GPT给出的理由多是“考虑一致性、风险和预期回报”,并未表现出对失望厌恶等更复杂偏好的意识;
- 失误案例例证:人类与GPT均偶有第一阶随机支配(FOSD)违规,其推荐同样未必规范化,而只最大化样本所含实用函数;
- 版本差异:GPT-4比GPT-3.5-turbo在个性化推荐表现上更优秀、更稳定;
- 作者声明当前实验prompt设计非最优,但通过简易prompt已见GPT习得部分经济偏好,提示未来通过prompt设计改进该能力的空间。[page::12-13]
---
3. 图表深度解读
图1:CCEI与D-EUT指数对比(Page 7、8)
- 内容描述:
- 图1-(a)显示GPT三大实验组(GPT-D、GPT-R、GPT-PR)与人类基线在CCEI(决策一致性)上的表现;
- 图1-(b)显示相同组别在预期效用偏离指标D-EUT上的表现。
- 数据与趋势解读:
- GPT-D和GPT-R接近完美的一致性(均值接近1,且误差条极小);
- 人类数据表现明显更低(平均CCEI约0.88,存在显著波动),表明人类选择较“非理性”;
- GPT-PR的个性化推荐行为表现一致性有所下降(CCEI=0.97),但仍远优于人类,意味着学习数据带来了一定扰动;
- D-EUT指标下,GPT显示极低的偏离度,远小于人类;
- 文本关系:
- 支持作者论点:GPT更严格地符合理性模型标准,但基于数据的学习存在一定的近似误差。[page::7-8]
图2:失望厌恶和风险厌恶参数比较(Page 9)
- 内容描述:
- 图2-(a)展示各组失望厌恶参数$\beta$,正值为失望厌恶,负值为愉悦寻求;
- 图2-(b)展示风险厌恶参数$\rho$, 数值越高,风险厌恶程度越强。
- 数据与趋势:
- 人类数据$\beta$显著正值,表明普遍失望厌恶。
- GPT-D/R表现负$\beta$,显示“追求更高收益”的风险偏好,到GPT-PR虽部分转向正值,但远低于人类均值。
- GPT的风险厌恶远低于人类,三组均值均约0.6,而人类均值超过3;
- 结论关系:
- GPT缺乏模拟人类失望厌恶机制;
- GPT能学习模拟一般风险偏好,但会低估整体风险厌恶水平。[page::9]
图3:代表性样本信赖区间比较(Page 9)
- 内容描述:限制参数于人类数据中50%代表区间后,重新比较失望厌恶和风险厌恶。
- 数据与趋势:
- GPT-PR样本区间参数与人类样本区间有重叠,且风险厌恶水平无统计显著差异;
- 失望厌恶仍略低,显示模型拟合改进但仍未完全匹配。
- 支持文本:
- 表明GPT个性化推荐对代表样本的经济偏好能较好匹配,特别是风险维度更为准确。[page::9]
图4:失望厌恶参数样本量与学习关系(Page 11)
- 内容描述:
- 图4-(a)展示失望厌恶参数真实值与GPT预测值的散点和拟合线;
- 图4-(b)展示不同样本尺寸的偏好学习效果回归系数。
- 数据与趋势:
- 散点图显示数据分散,拟合线斜率低(接近零),说明GPT的预测参数与真实值无明显相关;
- 样本量增大亦无显著提升参数拟合效果。
- 支撑作者观点:
- GPT学习失望厌恶偏好能力有限,数据规模增长无明显改善。[page::11]
图5:风险厌恶参数样本量与学习关系(Page 12)
- 内容描述:
- 图5-(a)风险厌恶参数真实值与预测值的散点图与拟合线;
- 图5-(b)样本量变化对回归系数(偏好拟合能力)的影响。
- 数据与趋势:
- 随着样本量增大,拟合线倾斜度显著上升,显示GPT对风险厌恶的预测与真实参数显著改善相关;
- 样本量大于1时,回归系数均显著大于零,且随样本增加递增。
- 结论:
- GPT能从足够多的样本中学习风险厌恶偏好,个性化推荐更精准。[page::12]
图D.1:违反FOSD的示例(Page 27)
- 内容描述:
- (a)配图显示人类(黑线)和GPT(蓝线)在资产需求空间的选择点;
- (b)价格对数比与资产A需求占比散点图,红线标示FOSD的界限。
- 发现:
- 人类和GPT均有少数违反FOSD的决策,GPT个性化推荐较人类少;
- 意义:
- 说明即使GPT基于合理效用最大化,仍能继承人类输入的非规范特点;
- GPT推荐非完全规范化,反映依赖于输入样本。[page::27]
图D.2-D.4:GPT3.5与GPT4版本对比(Page 31-33)
- 内容描述:
- D.2图显示GPT4在CCEI和D-EUT指标上优于GPT3.5,且推荐行为对人类数据的拟合更好;
- D.3显示两者对失望厌恶和风险厌恶参数的估计差异,GPT4表现更接近人类并稳定;
- D.4显示个性化推荐中拟合系数及其置信区间,GPT-4整体稳定优于GPT3.5。
- 结论:
- GPT升级提升了经济偏好识别与个性化推荐能力,
- 模型规模和参数对推荐质量至关重要。[page::31-33]
---
4. 估值分析
本研究未涉及传统财务估值模型(DCF、PE等),而是基于消费者选择理论及偏好复原检验用于“估值”GPT行为的“效用”及其偏好参数。即:
- 通过Afriat的CCEI检测GPT“效用最大化”的合理性;
- 通过Echenique等人的偏差指数评估对EUT的偏离;
- 用Gul的失望厌恶模型参数$\beta$和风险厌恶$\rho$做结构性偏好估计。
该估值方法是行为经济学中的非参数及参数偏好复原方法,非财务数值估值,但可视作对GPT内在偏好“结构价”的量化解读。[page::6,21-23]
---
5. 风险因素评估
- 风险1:GPT对失望厌恶学习能力不足
导致个性化推荐时忽略用户对应的负面情绪反应,可能不适合规避负面回报的场景。
- 风险2:极端用户偏好难以被模型捕捉
极端高风险厌恶者的行为样本会导致GPT偏好参数估计失准,使推荐失去针对性。
- 风险3:推荐可能继承非规范行为
GPT基于样例数据进行推荐,若样例含有不合理选择(如FOSD违规),GPT可能照搬,且未必做到规范化纠正。
- 改进潜力与缓解路径:
- 通过更精细的提示工程(prompt engineering),显式指导学习风险和失望偏好,有望提升模型表现;
- 随着模型迭代升级(如GPT-4相较GPT-3.5),推荐精度和稳健性增强。
该报告未给出特定风险发生概率估计,明确指出风险在模型理解深度和输入数据质量两个层面。[page::12-13]
---
6. 批判性视角与细微差别
- GPT作为语言模型,并非默认设计用于决策模拟,行为结果可能更多反映训练语料中偏好表达的平均效应,而非真实个体偏好,这可能导致失望厌恶等复杂非线性偏好难以表达。
- 个性化推荐在样本表示与公式提示中存在局限,当前prompt仅“告知”GPT样本数据,无强制学习特定经济模型,限制了学习深度;
- 基于累积历史反馈的决策模拟(GPT-D)存在对历史对话依赖,推荐系统模拟独立且非连续,二者决策环境不同,导致行为差异,也是实验设计上的微妙差异;
- GPT遵循效用最大化的严苛一致性表现,可能源于其语言模型训练过程中的“模式复制”特性,而非真正的经济理性思考,是潜在偏向的一个体现;
- 样本选择较为理想,现实中用户数据复杂性和环境多变性可能大大降低上述模型的实用性和准确性。
---
7. 结论性综合
本报告详细分析了GPT-4基于经济学经典风险选择实验的行为表现及其个性化偏好学习能力。全面总结如下:
- 决策一致性:GPT(尤其GPT-D和GPT-R)在风险偏好选择上的决策表现极高一致性,CCEI近乎完美,D-EUT指标低,强烈支持GPT行为符合理性经济人模型。
- 偏好特征:
- 风险厌恶度$\rho$虽低于人类均值,但GPT具备辨识和匹配不同风险水平用户的能力;
- 失望厌恶$\beta$方面,GPT未能准确捕捉人类的负面情绪权重,体现其对非线性情感偏好的理解不足。
- 个性化学习与推荐:
- GPT基于模拟或真实选择数据能逐步调整其风险偏好推荐,反映一定的学习能力,特别是风险维度随样本数增长显著提升;
- 失望厌恶的学习效果有限,受限于模型结构和提示设计;
- 模型差异:
- GPT-4在偏好学习和一致性上均优于GPT-3.5,体现大模型优势;
- 现实应用潜力与限制:
- GPT显示作为个性化金融决策助手的潜力,尤其能采取不同风险偏好策略;
- 但其情绪与非理性认知的捕捉力不足,可能影响用户体验和信任度;
- 推荐系统沿用样本中的缺陷,存在局限。
总之,该论文首次实证结合行为经济学实验框架,系统检验了大型语言模型在偏好学习和个性化推荐中的表现,发现其虽展现出较好理性一致性和风险偏好学习能力,但在更复杂的情感偏好方面依然不足。未来可通过提示工程和模型优化进一步提升其决策辅助效能。报告提供了详细的实验设计、评估指标及图表支持,充实而严谨,为未来经济学与AI交叉领域研究奠定了基石。[page::0-33]
---
附:关键图表Markdown格式展示
- 图1-CCEI及D-EUT指标:

- 图2-失望厌恶与风险厌恶参数:

- 图3-代表性样本信赖区间比较:

- 图4-失望厌恶样本量学习关系:

- 图5-风险厌恶样本量学习关系:

- 图D1-FOSD违规示例:

- 图D2-GPT3.5与GPT4一致性指标对比

- 图D4-版本间个性化推荐能力比较:

---
以上即本报告的全面、详尽解析。