`

AI and the Dynamic Supply of Training Data

创建于 更新于

摘要

本研究基于对图片平台Unsplash的自然实验,实证分析了当创作者的作品被用于商业AI训练时,其上传行为的变化。结果显示,被纳入训练数据的创作者显著减少上传频率且更易退出平台,专业摄影师的影响尤为明显。同时,图片的多样性及新颖度均下降,可能导致未来AI生成内容质量下降。提出了包括动态补偿机制和数据市场等政策建议以调和创新驱动与创作者激励之间的矛盾 [page::0][page::2][page::4][page::32][page::33]。

速读内容


研究背景与问题定位 [page::0][page::1][page::4]

  • AI系统依赖大量人类生成数据,但贡献者的行为对训练数据供给影响显著。

- 研究以图片平台Unsplash为例,利用其于2020年发布的25,000张图片训练数据集(LITE)为自然实验。
  • 重点考察被纳入训练集的创作者上传行为变化及作品多样性和新颖性。


基线结果:上传行为显著减少 [page::12][page::14][page::15][page::16]


  • 被纳入训练数据的用户上传量平均下降约40%,即每月少上传约1张图片(37%下降)。

- 用户账户注销率略有提升,被纳入的用户注销概率增加约1个百分点。
  • 平行趋势假设得到支持,干预前上传行为无差异。

- 通过计量模型确认平均处理效应稳健且显著。

机制分析:专业用户及重度影响用户反应更强 [page::20][page::21][page::22][page::23]


| 用户类型 | 上传量变化 |
|--------------|----------|
| 专业摄影师 | 较一般用户降低上传超50% |
| 标注“可雇佣”用户 | 上传下降近90% |
| 仅一张图片纳入 | 上传下降约22% |
| 多张图片纳入 | 上传下降超45% |
  • 经济激励是主要驱动力,专业摄影师及“可雇佣”用户减少上传更显著。

- 重度处理用户(多于1张图片被纳入训练数据)上传减少幅度远大于轻度处理用户。
  • 2022年8月后(公众对生成式AI关注上升期)影响加剧,上传量进一步下降。


用户差异与行为边界 [page::18][page::24]


  • 用户在另一平台Instagram的上传行为未受影响,表明未整体退出摄影。

- 上传内容倾向变化较小,主要差异来源于用户组成变化。

上传图片的多样性与新颖度下降 [page::26][page::27][page::28]


  • 被纳入训练数据的用户上传图片的平均相似度提升约5%,高度相似图片数量增加约29%。

- 图片种类(基于关键词的多样性)整体下降约5%,新颖性下降30%。
  • 变化主要由用户结构改变驱动,单用户上传图片类别无显著变动。


对AI输出质量的潜在影响 [page::29][page::30]

  • 数据样本量减少2%预计导致算法性能下降1.4%-2%。

- 多样性和新颖性降低可能引发模型准确率减少4.5%-11.5%。
  • 依赖合成数据无法完全解决因人类数据供给减少导致的模型“崩溃”风险。

- 人类创作者的持续参与和合理激励对维持训练数据质量至关重要。

管理及政策启示 [page::31][page::32][page::33]

  • 平台应设计多层次版权许可和使用权,提供创作者经济激励。

- 动态补偿机制(基于AI模型使用及商业成功支付版权费)可缓解创作者流失。
  • 数据交易市场和拍卖机制有助于优化训练数据供需,提升激励效果。

- 监管框架需平衡版权保护与AI创新,避免因政策失调导致数据供给枯竭。

深度阅读

金融研究报告详尽分析报告



1. 元数据与概览 (引言与报告概览)



报告标题:《AI and the Dynamic Supply of Training Data》
作者: Christian Peukert、Florian Abeillon、Jérémie Haese、Franziska Kaiser、Alexander Staub
发布机构: 洛桑大学(University of Lausanne)商学院与苏黎世大学(University of Zurich)
发布日期: 2025年5月27日
主题: 探讨生成式人工智能(generative AI,简称genAI)训练数据的供给动态,重点分析数据贡献者(创作者)面对其作品被纳入AI训练数据时的行为变化,及其对AI训练数据量和质量的影响。实证数据源自图片分享平台Unsplash。

核心论点及目标信息:
报告通过研究Unsplash平台上约6百万张高质量图片的贡献者行为,特别是在2020年Unsplash官方公开25,000张图片供商业AI模型训练(LITE数据集)后,分析贡献者的上传行为变化。结果显示被“处理”(即作品被用作训练数据)的贡献者上传数量显著减少,有更高的退出率,尤其是职业摄影师和高贡献用户影响更明显。此外,贡献内容的多样性和新颖性有所下降,可能降低AI模型输出质量。报告呼吁通过动态补偿和数据市场改革,解决贡献者利益与AI发展之间的矛盾,保障训练数据供应链的健康和AI创新的可持续性。[page::0,1,2,33]

2. 逐节深度解读



2.1 引言 (Introduction)



报告开篇强调数据是AI发展的关键投入,特别是在生成式AI快速普及的大背景下,数据质量与持续供给直接决定AI性能提升的空间。作者指出现有政策框架涵盖隐私、竞争和知识产权法律,且版权法的模糊性导致大量法律争议。针对输入数据的版权限制可能减少版权数据的供给,影响AI模型的表现。此外,作者首次将视角转向贡献者自身的行为反应,强调创作者作为数据供应链的源头,行为变化将对训练数据的持续供给产生内生影响。本研究利用Unsplash释放LITE数据集的自然实验,设计了处理组和对照组,结合文本相似性等自然语言处理方法,全面分析上传行为和贡献内容特性变化。[page::1,4,5]

2.2 背景与相关文献 (Background and Related Literature)



文献综述涵盖了数据利用监管(隐私法、竞争法、知识产权法)对数据需求的影响,及其在保障AI训练数据代表性、无偏和完整性方面的要求。报告强调数据量与多样性对AI性能的重要性,并引述了包括未经授权数据(如盗版图书)对模型性能正面影响的实证研究。特别指向动态环境下持续数据流供给的必要性,并指出目前大多数研究忽视了数据贡献者的行为反应。本节还涵盖数字内容高固定成本的经济特性和AI可能引发的创作激励变化,为后文用户行为变化的分析奠定理论基础。[page::4,5]

2.3 实证环境、数据与方法 (Empirical Setting, Data and Methods)



本研究基于Unsplash平台,该平台以高质量免费图片著称,月访问量达3000万。2020年8月,Unsplash发布了LITE数据集,25,000张可用于商业和非商业AI训练的数据图片,且允许便捷批量下载。研究构建用户面板数据,追踪上传行为和内容质量指标。作者根据摄影设备参数和用户页面徽章等标签识别职业摄影师。设计采用差分中的差分(DiD)模型,处理组为LITE数据集贡献者,对照组为未纳入LITE但满足资格标准的用户,从而控制潜在选择偏差。模型中加入时间和用户固定效应,准确估计被纳入AI训练数据对行为的因果影响。[page::6,10,11,12]

2.4 结果 (Results)



2.4.1 删除率变化 (Deletion Rates)



被纳入LITE数据集的图片存续率显著高于未入选作品,删除率分别为7-8%与9%;但被处理的用户账户退出率较高,下降约1个百分点。此结果显示用户反应存在异质性,职业用户和高曝光用户更易删除内容,出于保护专业利益考虑,并非所有用户均选择退出平台。[page::13,14]

2.4.2 上传行为变化 (Uploading Behavior)



图1显示处理组上传数量在LITE发布后明显下降,长期稳定降低约40%。表3的定量分析确认了此结果,处理组用户每月减少约1次上传,上传活跃度下降30%以上。对照组无显著变化,满足平行趋势假设。敏感性测试采用不同控制组定义及权重调整,稳健性强。此外,与Instagram上传行为对比显示,行为变化仅限于Unsplash平台,表明用户并未整体退出创作职业,而是平台特定反应。[page::15,16,17,18,19]

2.4.3 机制分析 (Mechanisms)


  • 职业与经济动机: 职业摄影师(专业器材用户、“可被聘用”标记)在LITE发布后上传减少更显著。用户加入付费Unsplash+计划的比例提高,这一计划禁止图像被用于AI训练,显示用户试图通过额外手段控制作品用途。[page::20,21]
  • 处理强度差异: 拥有多张LITE数据集图片的用户上传下降幅度超过单张用户两倍,且随着2022年后生成式AI如Stable Diffusion普及,用户上传行为进一步下降,显示公众对AI威胁感知的增强强化了反应。[page::22,23]
  • 作品类型变化: 上传的“自然”(nature)主题和平台精选(curated)图片上传概率下降30%-70%,表明高质量、热门类别作品上传受影响较大。[page::23]
  • 平台专属性: 行为变化未扩散至Instagram,说明用户反应针对数据集公开本身而非全行业退出。[page::23,24]


2.4.4 训练数据质量影响 (Variety and Novelty Measures)



运用词向量(Word2Vec)技术对图片关键词构建嵌入向量,计算均值向量后用余弦相似性量度新上传作品与已有库存图片的相似度。分析显示,处理组贡献上传图片的多样性(variety)降低5%新颖性(novelty)降低约13%-28%。这反映数据集中图片趋于同质化,部分是贡献者构成变化(流失更创新贡献者)导致,而非单一贡献者调整上传内容的行为。结合计算机科学文献,数据流多样性和新颖性的降低预计将导致生成式AI模型产出质量的非微不足道降幅。[page::26,27,28,29]

2.4.5 AI输出质量的预估影响



结合经济学和机器学习文献的结果,数据量减少2%会带来约1.4%-2%的AI性能损失;新颖性下降的幅度可能导致4.5%-11.5%性能下降;数据同质化影响准确率5%-22%。综合估计,生成式AI模型的整体准确率或表现因训练数据贡献者减少及数据质量下降而显著受损。合成数据(synthetic data)虽可用于补偿数据缺口,但可能带来“模型崩溃”等风险,且难以完全取代人类贡献数据的动态流动特性,提醒相关政策应谨慎对待单纯依赖合成数据的方案。[page::29,30]

2.5 讨论 (Discussion)



2.5.1 经理和平台启示


  • 平台在AI内容数据授权中面临贡献者流失风险,需设计多层次数据许可体系和动态补偿机制。例如Unsplash+付费服务禁止AI训练授权,以经济激励留住贡献者。

- AI公司亦开始允许创作者选择退出,提倡更灵活的授权控制,但效果仍未明朗。
  • 研究提示需深入了解补偿对数据供给质量和数量的影响,为未来平台盈利模式及数据授权制定提供依据。[page::31,32]


2.5.2 市场与政策启示


  • 拟议基于使用量和成果的动态版税方案,仿效音乐版权分发机制,激励持续贡献。

- 数据市场化和拍卖机制可引入更透明、公平的价格发现与交易流程,提升数据资产价格效率及权利人收益。
  • 政策制定需谨慎权衡版权保护与AI创新,规避法律缺失导致AI企业出逃至宽松版权环境的风险。国际竞争中合法合规框架将影响技术研发布局。[page::32,33]


2.6 结论 (Conclusion)



本报告通过深入的自然实验设计,首次提供了对AI训练数据贡献者行为的因果实证证据,证明贡献者对作品用于AI模型训练具有明显的行为反应,尤其是职业与高贡献者。结果呈现了训练数据供应链中上游创作者行为变化对数据流量和质量的负面影响,进而对AI模型输出质量产生实质威胁。此发现拓展了AI经济学研究关注点,从需求侧扩展至供给侧,强调制定合理补偿和许可政策的重要性。技术层面合成数据不能完全替代人类生成数据,机制设计更需配合人类激励。未来研究应进一步量化数据流减少对模型性能的具体损失及测试补偿机制设计效用。[page::33,34]

---

3. 图表深度解读



图表 1:LITE数据集图片排序回归结果(表格 1)



内容说明:分析LITE数据集中图片排序(排名)与图片或用户特征的相关性。各项因素包括自动关键词“nature”的置信评分、图片热度、用户上传量等。

数据解读:
  • 图片排序未被大多数特征解释,调整后$R^2$极低(0.0003),表明排序近似随机。

- 唯一显著相关的是自动关键词的置信度(AutoKeywordScore),表明关键词置信度越高,图片越可能靠前。
  • 说明LITE数据集选取主要基于未指定优先级的关键词匹配,支持了建立对照组的随机性假设。[page::8,9]


---

图表 2:用户上传数变化趋势图(图1)



内容说明:
  • Panel A展示处理组(实线)与控制组(虚线)的月度上传数,均已去均值,横坐标为相对于LITE发布的月份。

- Panel B为两组上传数差异的月份特定估计值和置信区间。

数据解读:
  • 发布前两组上传趋势相似,满足平行趋势假设。

- 发布后处理组上传数量急剧下降,长期保持较低水平,差异在1~1.5次上传数左右。
  • 置信区间不包含零,差异具统计显著性。[page::15]


---

表格 3:处理效应定量分析 - 上传数变化



结构:
  • 栏(1)(2)为月上传总数,与是否为处理组*后期交互变量相关,负系数约为-1。

- 栏(3)(4)显示上传有无(二元变量)也明显下降约7%。
  • 栏(5)(6)为上传数量的log(1+uploads)变换,同样呈负向变化。

- 以上均控制月和用户固定效应,都是高度显著。

解读:
  • 平均每月上传减少约1张,占处理组基期上传的37%。

- 上传活跃度和上传意愿均显著下降,体现贡献者行为受直接影响。[page::15,16]

---

图表 3:Unsplash与Instagram上传数对比(图2)



说明:
  • Panel A为两平台上传趋势,黑色为Unsplash,灰色为Instagram,区分处理与控制组。

- Panel B、C为Instagram和Unsplash上传数差异的DiD估计,对应控制组与处理组用户。

解读:
  • 控制组上传行为两平台无显著差异,处理组仅在Unsplash上传数统计明显下降。

- 没有检测出替代上传行为(未转向Instagram)。
  • 反射机制为平台特定影响,而非创作意愿或专业身份的全面退出。[page::18,24]


---

图表 4:图片多样性与新颖性趋势(图4)



说明:
  • Panel A和B展示上传图片与既有库存图片的平均相似度(越高相似度越低多样性)水平及处理-控制差异发展。

- Panel C和D以“非常相似”的库存图片数量衡量新颖性变化。

解读:
  • 处理组上传图片相似度较高,说明多样性下降。Panel B中差异随时间增强且发布后显著增大。

- 新颖度(Panel C,D)显示处理组上传图片更重复已有库存,尤其高相似度图片数量增多。
  • 用户固定效应模型表明多样、新颖性下降部分由用户群组成变化导致,而非单个用户上传策略变化。[page::28]


---

4. 估值分析(本报告虽无传统金融估值,但对价值与效益的评估)



报告无财务估值模型,但以训练数据的质量和供给变化对AI输出质量的影响作为核心“价值”分析,定量估算用户行为变化对AI性能的潜在折损:
  • 训练数据集大小减少2%,预估模型准确率减少1.4%-2%。

- 数据多样性和新颖性下降,模型表现约下降5%-11%。
  • 合成数据补偿可能带来模型“崩溃”风险,难以完全替代人类原始数据供给,提出了价值-质量权衡。[page::29,30]


5. 风险因素评估


  • 法律不确定性风险: 当前版权框架尚不清晰,可能引发诉讼和用户信任危机,影响内容贡献持续。

- 贡献者行为风险: 较高的反对与流失率(特别职业用户),令训练数据供给减少且趋向同质化。
  • 技术风险: 过度依赖合成数据可能引致AI模型性能下降和模型崩溃。

- 政策制定风险: 无适当激励机制会导致数据生态退化,影响创新能力,并且可能使AI开发企业迁移至法规宽松国家。
  • 报告提出动态补偿和市场机制作为应对措施,强调多方协作和技术追踪需求尚未成熟,潜在实施难度大。[page::30,32,33]


6. 审慎视角与细微差别


  • 报告基于Unsplash平台数据,结果的外推性需谨慎:不同内容平台、不同类型创作者的行为可能差异显著。

- Unsplash为免费授权平台,贡献者结构或对经济利益依赖度可能较其他付费平台弱,影响反应强度。
  • 研究侧重上传行为和作品特征的改变,未直接测量用户收入或整体职业退出率。

- 对AI输出质量的影响为推断,尚需直接模型性能测量支持。
  • 报告对控制组定义和模型选择较为严谨,并提供大量稳健性测试,增加结果可信度。

- 对合成数据的负面影响解读来自外部文献,具体情境和技术进展变化可能调整观点。

7. 结论性综合



本研究以大数据为基础,通过差分中的差分设计,系统评估了当平台公开部分用户作品供商业AI训练时,贡献者的行为变化及其对训练数据质量的影响。主要发现如下:
  • 贡献行为变化显著:被包含的贡献者上传频率下降约40%,用户账户退出率上升,职业摄影师及贡献量大用户的影响尤为明显。

- 上传图片的多样性和新颖性下降:整体减少5%多样性,降低13%-28%的新颖性,易导致训练数据集同质化。
  • 行为变化局限于特定平台,未见用户整体退出创作,仅影响AI训练数据的供给渠道。

- AI输出性能潜在损失显著:据相关文献推断,质量及数量下降可能导致模型性能减少5%-11.5%,且合成数据代替方案风险存在。
  • 管理与政策建议:官网平台与AI开发方需配合开发动态补偿和增值分享机制,设计灵活许可模式和数据市场以平衡创作者正当利益与AI研发需求。

- 学术贡献:填补了关于“AI训练数据供给行为变化”的实证研究空白,为理解数据经济中人类行为的战略影响提供了有力证据。

总的来看,报告通过严谨的数据分析和理论结合,强调创作者行为作为AI训练数据质量和数量变化的关键驱动力,是未来政策和企业实践不能忽视的核心变量。有效的激励机制设计和规范建设,是保障AI创新健康持续发展的基石。[page::0-34]

---

附件图表示例



图1:用户上传量变化趋势




图2:Unsplash与Instagram上传量对比




图4:上传图片的多样性和新颖性变化




图3:关键词相似度示例图片




---

以上分析结合定量数据模型结果与文本解释,以及图表的视觉辅证,全面呈现了报告的研究思路、方法、发现与启示,符合实际操作中对深入金融科技和数字经济研究的高标准要求。

报告