`

My Advisor, Her AI and Me: Evidence from a Field Experiment on Human-AI Collaboration and Investment Decisions

创建于 更新于

摘要

本研究通过与德国大型储蓄银行合作,以个人贷款投资建议为实验场景,实证探讨人类介入AI投资建议的生产和消费者采纳端的影响。结果表明,虽然人-机协作改变了建议内容,但并未降低建议质量;客户在高风险投资下更倾向采纳人-机协作建议,依赖度明显高于纯AI建议,从而提升消费者福利。该效应主要源自人类介入带来的情感信任和外围说服机制,而非认知上的建议质量提升或两个顾问的协同效应。研究为人机协作投资服务设计及相关监管政策提供了理论和实证参考 [page::0][page::4][page::5][page::21][page::26][page::36]

速读内容


研究背景与问题设定 [page::0][page::1][page::2]

  • AI技术发展推动自动化服务,然而纯AI服务存在适应性差、责任归属模糊等问题。欧盟GDPR与AI法案强调“人类介入”以保障高风险AI系统的安全性。

- 研究聚焦金融投资咨询场景,探讨“人-机协作”与纯AI服务在投资建议生产及消费者采纳上的差异及机制。

研究设计与数据来源 [page::3][page::10][page::12][page::13]

  • 设计两阶段实地实验:第一阶段由银行理财师结合AI预测产出协作型建议;第二阶段随机向银行客户分配纯AI建议、人机协作建议及未告知AI参与的人类建议,测量其投资决策的依赖程度。

- 样本包括27名银行理财师对24个个人贷款(带风险等级)作出投资建议,调研137名客户投资行为,剔除数据异常后样本为130名客户,涉及1299个客户-贷款观察值。
  • AI模型采用神经网络,预测贷款违约准确率达73%(ROCAUC 0.71),符合业界标准。


生产端发现:人机协作改变建议但不降低质量 [page::14]

  • 人机协作后理财师风险评估与AI建议存在显著差异,但银行理财师建议仍部分依赖AI输入;

- 介入人类后建议质量(准确率)未显著下降,人类并未简单覆盖AI输出,体现双重影响;

消费端发现:客户更倾向采纳人机协作建议 [page::20][page::21][page::23][page::26]

  • 当建议内容相同时,客户对人机协作建议的最终投资决策与建议一致性显著高于纯AI建议 (79.2% vs 68.3%);

- 回归分析表明,人机协作条件下客户投资决策与建议一致性增加约15.5个百分点,且该效应在高风险贷款更为显著;
  • 没有观察到人机协作与人类单独建议的依赖度有显著差异,表明核心驱动非认知的“两个顾问协同”;


机制探索:外围说服路径驱动客户行为 [page::26][page::33][page::34][page::35]

  • 利用实验条件及风险水平划分,证实客户在高不确定性(高风险)下更依赖人机协作建议;

- 线上控制实验排除先验信念和建议准确性预期差异的影响,发现情感信任是关键中介;
  • 调节中介模型表明,情感信任在高不确定水平下显著促进客户对协作建议的采纳;


研究贡献与实践意义 [page::4][page::5][page::36][page::37]

  • 拓展人机协作领域研究,首次实证揭示人类介入AI服务如何提升下游消费者福利;

- 发现心理层面的外围路径而非认知质量提升驱动消费者偏好,提示监管和设计应关注人机信任关系;
  • 企业应衡量人机协作提高建议采纳的潜在价值与新增成本,避免因低质量协作致消费者误信;


量化与实证数据图示


  • 图示展示相同投资建议时,客户在Final Investment Alignment及Risk Assessment上的明显差异,强化人机协作提高采纳率的结论。

深度阅读

金融研究报告详尽解析

报告题目: My Advisor, Her AI and Me: Evidence from a Field Experiment on Human-AI Collaboration and Investment Decisions

> 作者: Cathy (Liu) Yang, Kevin Bauer, Xitong Li, Oliver Hinz
发布机构: HEC Paris & Goethe University Frankfurt

> 发布时间: 2025年6月5日
主题: 人工智能(AI)与人类协作在金融投资建议中的应用及其对客户决策的影响


---

一、元数据与概览



本报告通过与一家欧洲大型储蓄银行合作,设计并执行了一项实地实验,系统探讨了在AI驱动的投资建议中,人类是否介入(或称“人机协作”)会影响下游消费者的决策行为和福利。研究核心在于比较纯AI建议与人机复合建议的生产和消费两个层面,评估人类“最后决策权”作用下建议质量是否下降,及客户采纳建议的差异。研究发现:
  • 人类银行家介入时,AI建议未被弱化,建议质量未减少。

- 消费者面对风险较高的投资时,更倾向于采纳人机协作建议。
  • 从消费者福利角度看,人机合作建议带来更大实质利益。

- 消费者对协作建议的依赖度增加,主要源自情感层面的信任增强,而非认知对建议质量的信念提升。
  • 研究呼吁政策制定者应注重消费者视角,推动AI与人类能力的协同应用。


关键词包括“human-in-the-loop(人类介入)”、“human-AI collaboration(人机协作)”、“algorithmic aversion(算法回避)”及“social influence(社会影响)”等。[page::0]

---

二、逐章深度解读



2.1 引言



文中首先指出AI技术的快速发展使其在多个领域表现优异,从销售预测到医疗诊断。尽管企业逐渐倾向纯AI服务以降低成本并提升效率,但全自动AI存在无法应对稀有输入变化、数据漂移、责任归属等问题,因此监管和业界主张保留人类干预(“人机协作”)。欧盟GDPR和AI法案中均明确要求人类可对高风险AI系统进行监督。具体到投资建议领域,如Vanguard Personal Advisor与Wealthfront的区别便是前者人机结合,后者纯自动化。

然而,目前研究主要关注生产端的AI与人类协作对建议质量的影响,消费端如何反应却鲜有系统研究。本文旨在填补此空白,双向考察人类介入AI服务生产和消费的影响,尤其关注消费者对人机协作建议的反应。[page::1,2]

2.2 理论框架与研究问题



报告阐释了消费者对人机协作建议的态度存在两种理论可能:一是人类介入提高服务质量和情感支持,增强信任;二是可能引入噪声,降低服务质量,甚至引发反感。由此提出两大核心研究问题:
  • RQ1:人类介入AI建议制作是否影响最终消费者的采纳度?

- RQ2:影响的主要机制是什么?

选择金融投资作为研究背景,因其法规要求高且决策对财富影响重大,有代表性和现实意义。[page::2]

3 研究设计概述



研究设计为两阶段实地实验:
  • 阶段1(生产端): 构建预测个人贷款违约概率的神经网络AI模型(准确率73%、AUC0.71),为银行家提供AI建议后,银行家再基于AI提供的风险评分修正风险评级和投资建议,产生人机协作建议。银行家被激励以提高建议准确性。

- 阶段2(消费端): 真实银行客户随机接收三种建议之一:纯AI建议(基线)、人机协作建议(主处理组)、人机协作建议但客户仅知有“人类建议”(控制组)。客户先做初步投资和风险评估,随后收到对应建议,再作最终决策。

此设计既能考察人类对AI建议的调整,也能评估消费者区分三种建议源的行为决策差异,探索心理机制。[page::3,10,11,16]

4 生产端实证结果



4.1 AI模型表现


基于超过百万条贷款数据训练神经网络,预测准确率与现有文献匹配,风险分级基于银行标准的7类风险等级划分。

4.2 人机协作建议产生机制


27名银行家对24个贷款样本,在AI风险评分曝光前后各做投资决策。数据统计显示:
  • 银行家介入产生的人机协作建议并非简单复制AI建议,两者虽有较高相似度,但银行家根据AI结果进行了明显调整。

- 银行家调整后建议在投资判断上更加接近AI,但仍保留其独立判断的痕迹。
  • 关键发现是银行家介入未显著降低建议准确率,说明“人类最后裁决”不会损害建议质量。


此结论挑战了“人类可能无效否决AI”的担忧,证明两者存在互补。[page::13,14]

4.3 建议集成与客户呈现


为了减少客户间建议获得的异质性,实验为所有客户提供同一组合的人机协作建议,是所有参与银行家意见中的最常见版本;且客户对建议的来源认知仅限于范式中设定的信息,避免额外干扰。[page::15,16]

5 消费端实地实验分析



5.1 设计及流程


137名线下银行客户接受实验,随机分配三种建议类型,先独立做决策后接收建议再决策,涉及10个贷款选择。投资行为有金钱激励并通过抽签兑现盈亏,保障真实行为表现。[page::16,17]

5.2 样本与变量


剔除掉质量低劣回答后130名客户数据。分析的核心指标是投资决策是否与建议一致(FinalAlign),以及风险评估的对齐程度(GapFinalRiskAssess)作为辅助。控制变量包括客户年龄、风险偏好、初始信念与决策变异等多维度因素,确保分析的内生性问题得以缓解。随机化检验确认各组样本在关键变量上无系统差异。[page::18,19]

5.3 模型无关初步观察


在一致建议子样本中,人机协作条件下客户的投资决策与建议一致率显著高于纯AI条件,同时风险评估对齐度也更优,实验数据支持人类介入提高下游客户采纳率的直观结论。[page::20,21]

5.4 回归分析结果


通过多重固定效应OLS回归模型(包含客户、时间、贷款、建议固定效应,且控制各种协变量),估计人机协作对客户采纳率的影响,结果显示:
  • 人机协作建议相比纯AI,客户最终投资决策与建议的一致性提升约15.5个百分点,效果高度显著。

- 多项稳健性检验(Logistic回归、分支固定效应、纳入被排除样本等)均证实结论。
  • 采用风险评估一致性替代指标,结论同样支持人机协作提高客户采纳建议。


此外,客户初始投资与建议偏离越大,采纳可能越低,这符合理性行为预期。[page::22,23,24]

5.5 机制探索:中央与外围路径



通过对比“人机协作”与“仅人类建议(未告知AI参与)”条件:
  • 发现两者在客户依从度上无显著差异,暗示人机协作优势不源于客户认知到多人协同的质量互补(中央路径)。

- 人机协作效果在风险较高(不确定性大)贷款中更明显,符合经典劝说理论中的外围路径主导假说,即在不确定环境下,感情和社会信号驱动消费决策。

测算客户经济福利差异发现,人机协作组最终收益平均高出44.9%,且此增益显著集中在风险较高子样本,表明更贴近实际风险场景的人机协作建议提升了消费者物质利益。[page::25,26,27]

---

三、图表深度解读



图1(第12页)— 实验证设计流程图


  • 左侧为生产阶段,27名银行家在AI建议前后评估10个贷款,生成标准AI与人机协作两套建议。

- 右侧为消费阶段,137名客户被随机分配接受三种建议类型之一,进行两轮投资决策。
  • 流程设计确保内部控制,数据收集全流程透明且分组随机,实验对比清晰。[page::12]


图2(第21页)— 纯AI与人机协作在一致建议子样本中的模型无关差异


  • 图2a显示在建议决策一致贷款上,人机协作组投资一致率近0.79,明显高于AI组0.68,统计显著。

- 图2b反映人机协作用户风险评估与建议差距更小,表现出更强的建议对齐。
  • 误差条显示统计置信区间,结果支持核心假设,即人机参与增强客户采纳度。[page::21]


表1(第23-24页)— OLS回归分析核心结果


  • 核心变量HumanAI系数为+0.155,显著,显示人机协作条件下客户采纳率提高约15.5%。

- 控制变量表现合理:初始决策与建议差异大下降采纳率;客户年龄增加则微妙影响采纳。
  • 多重稳健性测试表明结论稳定可靠,为实证发现提供坚实支撑。[page::23,24]


表2 & 表3(第25-27页)— 机制验证与风险异质性效应


  • 表2显示“仅人类”与“人机协作”间采纳率无显著差异,排除“多主体质量互补认知”驱动。

- 表3揭示风险较高(更不确定)贷款中人机协作增强采纳效果显著,低风险贷款无此效应,加强外围路径机制证据。
  • 旁证表明消费者感受到的不确定性调节人机介入的劝说效力。[page::25,26,27]


表4(第27页)— 消费者投资收益比较


  • 总体上,人机协作提高客户最终投资收益44.9%,风险高子样本尤其明显。

- 表明客户更愿采纳人机建议能够带来实质经济福利,对金融服务模式设计具有现实指导意义。[page::27]

图A1 & A2(在线附录第46页)— 银行家操作界面与客户建议展示界面


  • 显示银行家如何在AI风险评分基础上作出风险与投资决策,确保了实验中人机协作的操作真实可靠。

- 客户界面简洁明了,且针对不同实验组适当调整建议来源描述,确保客户体验一致且符号清晰。[page::46]

图A3(在线附录第47页)— 机制模型框架图


  • 展示了不确定性如何调节“人机协作”(vs AI)对“外围劝说元素”(情感信任等)的影响,进而调节最终采纳度。

- 体现了本研究对因果机制的严谨考察策略,并指导了实验设计与分析路径。[page::47]

---

四、估值分析



本报告没有传统意义上的估值模型分析,但通过实地实验的设计与结果,间接反映了人机协作服务在金融投资建议中的“价值”:
  • AI模型的准确率(73%)与行业标准相当,为估值精准提供基础。

- 通过比较不同建议类型带来的客户投资收益变化(44.9%增益),量化了人机协作产生的经济价值。
  • 并结合了客户心理接受度分析,为“人机协作服务”的商业价值评估提供了多维度视角。


---

五、风险因素评估



文中风险主要围绕人机协作服务潜在的负面影响与局限性展开:
  • 人类干预可能降低建议质量: 虽实证中未见明显负面,但在其他语境下可能出现噪声、偏见、人为错误。

- 消费者过度依赖风险: 高情感信任可能导致对算法建议盲目信任,尤其若AI预测质量下降,可能造成严重误导。
  • 消费者感知风险与偏好异质: 不同客户对风险评价和建议接受度差异大,易导致服务体验不均。

- 实验情境局限性: 仅限于金融个人贷款,扩展至其他领域需谨慎,且实际人机协作模式多样,结果可能不同。

报告强调须持续监控人机服务质量,并设计政策以防止盲从误判,保障消费者利益。[page::37,38]

---

六、批判性视角与细微差别


  • 实验设计的现实外推性:实验基于德国储蓄银行,客户群体可能代表性有限,尤其年轻实验参与者与实地客户存在年龄差距。

- “人类-仅有”条件的限制:报告中的“Human-only”条件隐匿AI参与,不能明确比较纯人类与人机协作咨询的优劣。
  • AI预测准确度的中等水平:AI准确率约70%,是否AI性能提升至更高水平会改变消费者信任及采纳行为,仍是未知领域。

- 金融领域的特殊性:金融投资决策含情感与理性混合,高赌注且风险明显,与其他决策领域如创意工作差异较大,结论适用范围需限定。
  • 情感信任主导机制的双刃剑效应:虽然增强采纳,情感信任亦可能放大错误采纳风险,特别在AI质量不佳情形。

- 潜在的社会遵从压力:人类顾问的社会影响力可能引导客户从众,这一心理机制需谨慎权衡,避免误导。

整体来看,报告采取审慎客观立场,强调了发现的适用边界和未来研究方向,避免过度泛化。[page::36,37,38]

---

七、结论性综合



本研究通过严谨的两阶段实地实验与补充的在线实验,全面揭示了在金融投资建议中“人机协作”相较纯AI带来的显著好处:
  • 生产端: 人类银行家介入AI建议生成环节,调整了AI输出但未降低准确度,且形成独特的混合建议。

- 消费端: 银行客户更倾向采纳具有人类参与标识的人机建议,采纳率提升超过15%,特别在高风险(高不确定性)贷款中更为明显。
  • 经济效益: 伴随采纳度提升,客户投资收益平均增长近45%,充分体现了人类介入的实质价值。

- 心理机制: 通过与“仅人类”建议比较及风险分层,排除中央路径(认知推理效果),证实周边路径(情感信任与社会影响)为核心驱动力,尤其当客户面临高不确定性时更为突出。
  • 复制验证: 独立的控制在线实验复刻了这一行为模式,排除多余干扰因素,增强结论稳健性。


报告指出,含人类参与的AI服务不仅反映技术和绩效提升,更重要的是带来心理安全感和决策舒适度,改善消费者体验。这对管理者设计服务模式和监管机构制定政策都有深远影响,需在保证质量同时强化人机协同的情感安全边际。

最后,报告呼吁未来拓展多领域、多AI性能水平场景研究,深入理解不同服务环境下人机关系对消费者行为的异质影响,并关注人类顾问的自信表达及AI透明度等因素对信任建设的潜在作用。

---

总结



本报告以实证视角深刻剖析了人机协作在AI金融投资建议中的生产与消费双重影响,通过严谨设计与数据分析,证实:
  1. 生产质量无损且呈互补性调整。

2. 客户采纳率显著因人类介入增加,尤其风险大环境下。
  1. 客户收益提升,体现真实经济价值。

4. 心理驱动主要是外围路径的情感信任,而非对建议质量的理性预期提升。
  1. 服务设计与监管应重点打造人机协同的情感信任环境,避免算法回避同时防止盲目信任。


报告运用丰富实验数据与多层次建模,配合图表详实展现,科学且客观,为AI金融服务模式创新、监管政策制定和学术研究提供了坚实贡献和重要启示。全文引用标注详尽,具备较强的溯源性和学理支持。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,46,47]

---

附:关键图表示例(部分)



图1-实地实验设计流程
注:左侧为生产阶段银行家与AI协作过程,右侧为消费者实际投资决策过程中的建议随机分配。

图2-客户采纳建议的模型无关差异
图2a:人机协作组客户最终投资与建议一致率明显高于纯AI组。

图2-风险评估的对齐情况
图2b:人机协作组风险评估与建议更吻合,表明其更依赖建议。

---

此分析报告系统梳理了原文的研究设计、实证发现、理论机制、数据分析及图表内容,力求全面深入,明晰复杂机制,服务金融与AI交叉领域专业读者需求。

报告