How Exposed Are UK Jobs to Generative AI? Developing and Applying a Novel Task-Based Index
创建于 更新于
摘要
本报告提出了英国就业岗位对生成式人工智能(如大型语言模型)的暴露程度指标GAISI,采用任务为基础的概率评分方法,结合英国技能与就业调查(SES)任务数据构建。研究发现,2023/24年多数工作有一定AI暴露,但高度暴露工作较少;AI暴露带来的薪酬溢价自2017年以来有所下降,且高暴露岗位招聘需求自ChatGPT发布后显著减少,显示出AI对劳动力市场已有明显的置换效应和结构影响[page::0][page::1][page::12][page::13][page::18].
速读内容
GAISI指标构建与任务分类方法 [page::8][page::9][page::10][page::11]
- 通过调用多款LLM(主要为Google Gemini 1.5 Pro)对44个任务类别×25个英国职业组合共1,100个任务-职业单元进行概率式AI暴露评分,分为无暴露(E0)、直接暴露(E1)、集成暴露(E2)、图像处理暴露(E3)四类,阈值设为任务时间节约≥25%。
- 评分在5次重复采样中展现高度一致性(ICC值≥0.94),充分验证可靠性。
- 任务级评分结合SES调查中员工报告的任务重要性权重,汇总至个人和职业层面,体现职业与任务异质性有效融合。
UK劳动力市场中的AI暴露分布与特征 [page::12][page::13][page::14][page::15]
- 工作中约25%的任务被评为直接暴露(E1),另约27%为潜在集成暴露(E2),平均GAISI值为0.40,表明平均岗位可实现6-10%的时间节约。
- 94%的岗位至少包含20%受生成式AI影响的任务,只有13%的工作任务暴露率超过50%,多集中于高技能、科学技术类职业。
- AI暴露与技能水平呈正相关,低技能和体力劳动岗位暴露度较低。
- 教育差异是暴露度的重要决定因子,调查分析发现性别、年龄、种族差异主要由职业排序解释。
AI暴露对人工智能工具采用与劳动力市场信号的预测能力 [page::15][page::16][page::18][page::19]

- 自我报告的AI使用概率显著随GAISI五分位数递增,2024年最高暴露组的AI使用率比2023年增长16个百分点。

- 自2017年以来,AI暴露度整体提升1.8个百分点,主要因职业结构向更高暴露职业倾斜,而非同职业内任务变化。
- ChatGPT上线后,高暴露职业的招聘广告数量较预期下降约6.5%,表明需求减少,显示出置换效应早期迹象。
- AI暴露的薪酬溢价虽仍为正值,但相较2017年显著减弱。
GAISI指标的多维度有效性验证 [page::20][page::21][page::22][page::23][page::25][page::27][page::29][page::30]
- 内容效度:SES任务覆盖了生成式AI影响的广泛工作活动,不平衡暴露分布有效区分暴露与非暴露任务。

- 实质效度:LLM在评估中提供的理由与暴露评分高度相关,解释变量可解释60%方差。

- 收敛效度:GAISI与现有AI暴露指标相关性高(Felten等AI指标相关系数达0.83),而与传统自动化指标显著负相关,表明其捕捉的技术特点不同。
- 预测效度:GAISI对工作岗位AI工具使用的预测能力优于其他指标,提升工人AI使用概率12-14个百分点,且对模型的稳健性强。
- 鲁棒性检验显示不同LLM模型、提示词、权重分配等设计变化下指标稳定,欧美跨国数据应用一致。
社会公正性与偏差检测 [page::31][page::32]
- 剔除职业和任务组成后,GAISI残差对性别、年龄、种族、教育的关联极小(<1%误差方差),表明指标具有较好的后果效度,使用中偏见风险低。
国际视角与扩展应用 [page::47][page::48][page::51]

- 在OECD成人技能调查2023跨国样本中复刻GAISI,发现不同国家间AI暴露中位数和分布一致,多数国家间高暴露岗位位置相近,低暴露岗位差异更大。

- 白领高暴露低分散特征在国际样本中延续,职业归属是AI曝光差异的主要中介因素。

- 欧洲多国2014-2025年就业数据显示,GPT引发高暴露职业的就业尚无显著下降,整体趋势平稳。
综上,GAISI构建科学、测量严谨,能够准确反映生成式AI对英国及国际劳动力市场潜在影响,为政策和学术研究提供重要量化工具和分析框架。[page::33][page::47][page::50]
深度阅读
详尽分析报告:《How Exposed Are UK Jobs to Generative AI? Developing and Applying a Novel Task-Based Index》
---
1. 元数据与概览
报告标题: How Exposed Are UK Jobs to Generative AI? Developing and Applying a Novel Task-Based Index
作者及其所属机构:
- Golo Henseke¹, Rhys Davies², Alan Felstead², Duncan Gallie³#, Francis Green¹, Ying Zhou⁴§
- ¹ University College London
- ² Cardiff University
- ³ Nuffield College, University of Oxford
- ⁴ Surrey Business School, University of Surrey
版本及发布日期: 30/07/2025
主题: 探讨英国劳动力市场中各类职位对生成式人工智能(尤其是大型语言模型,LLMs,如ChatGPT)的暴露程度。
核心论点与贡献:
本文提出一个名为Generative AI Susceptibility Index (GAISI)的任务级别指数,用以衡量英国工作中各职位被生成式AI暴露的程度。GAISI依托大型语言模型对工作任务可被AI辅助的概率判断,并与英国Skills and Employment Surveys(SES,技能与就业调查)中工人自报的任务数据相结合。该指数聚焦于生成式AI相较于现有生产力工具,能至少缩短25%任务完成时间的工作活动份额。报告表明几乎所有英国工作岗位在2023/24年度都或多或少受到AI影响,但只有少数岗位高度暴露。GAISI相较于现有指标具有更强的预测能力和更高的可靠性,且初步证据显示AI造成的岗位替代影响可能已超过其生产力提升效应[page::0,1,2]。
---
2. 逐节深度解读
2.1 引言 (Introduction)
- 关键论点:
- 生成式AI(尤其是LLMs)在劳动力中的普及迅速,截至2024年第二季度约有24%的英国工人使用了AI工具。相比20世纪80年代末计算机的推广速度,AI采用速度更快。
- 生成式AI独特之处在于具备生成文本、图像、音频等能力,且可直接辅助高级认知任务,进入此前被视为难以自动化的知识工作领域。
- 现有的AI暴露指数多基于美国ONET职业框架,未充分考虑岗位内任务细分差异,限制了对劳动力市场影响的精准评估。
- 本文创新引入了GAISI,通过LLM自动评分结合英国SES微观数据,实现了更细粒度的任务-岗位级暴露度测量。GAISI关注生成式AI带来的边际生产率提升,以25%任务时间节约为阈值。
- 具体贡献包括自动任务分类、有效验证策略,以及对英国劳动力市场的应用实证[page::1,2]。
- 推理依据与假设:
- 以Eloundou等(2024)为基础,构建用于UK数据的量化指标。
- 采用概率分布形式反映任务的多样暴露水平,覆盖直接利用LLM(如ChatGPT)和整合使用辅助工具场景。
- 认定25%任务时长缩减为有效界限,认为这一水平已能带来显著劳动成本节省。
- 数据: SES调查数据中工人对44项广泛任务重要性的自我评价,为构建任务重要性权重提供基础。
---
2.2 文献综述 (Previous Literature)
- 任务导向方法论: 引用Autor等(2003,2013)对技术对劳动力影响的任务细化分析,强调技术多半替代任务而非整个职业。
- 区别于以往自动化技术: 生成式AI定位于知识密集型认知任务,且易于员工自行采用,可能引发比以往更快的岗位替代。
- 现有技术暴露指标的不足: 多为美国数据,缺乏任务内异质性处理,可能高估自动化风险(Arntz等2017)。
- 生成AI的独特特征: 可能带来快速的替代冲击与迟滞的生产率增长之间的时间错配,需要细化任务层面的暴露衡量。
- 最新进展: 以Eloundou等(2024)为代表,使用LLMs完成任务暴露判定,区分直接暴露与潜在暴露,但未实现概率式分值,且忽略现有生产力工具效益。报告基于此进一步完善GAISI设计[page::3,4,5]。
---
2.3 数据描述 (Data)
- SES介绍: SES是一项自1980年代以来每五年进行一次、样本具有代表性的英国就业人员调查,含详尽的任务、技能和技术使用信息。
- 任务结构: 2023-24年SES包含44项工作活动,涵盖12大类任务,包括手工、认知、情绪、管理等多维度。任务重要性评分采用1(必需)到0(无关)五分制,具有良好结构和跨时期一致性。
- 职业与任务交叉: 按英国SOC 2010的25个二位子大类职业划分,形成1100个职业-任务组合样本,确保考虑职业背景中任务执行情境差异。
- 任务重要性统计: 调查中工人平均执行约26个“必需”任务,类别间重要性差异明显,如协作最高(平均0.80),管理最低(0.26)[page::5,6,7,8]。
---
2.4 GAISI的构建 (Construction of GAISI)
- 任务级暴露评分:
- 采用多个LLM(主要为Google Gemini 1.5 Pro,后备OpenAI GPT-4o和Gemini 2.5 Pro)自动评定任务-职业组合在四个暴露等级上的概率分布:
- E0:无效暴露(AI无显著节省)
- E1:直接暴露(LLM单独使用节省≥25%时间)
- E2:潜在暴露(LLM结合辅助工具节省≥25%时间)
- E3:图像识别辅助暴露
- 评分重复5次取平均,温度设为0.2保证判定稳定性。
- 确立25%为阈值,相比Eloundou等的50%,更适合反映细致边际生产率提升。
- 聚合方法:
- 利用SES自报的任务重要性权重,将职业-任务暴露概率加权后求和,归一化为任务权重加权比例,从而构成个体层面的GAISI值。
- 使用折扣因子0.5对E2和E3潜在暴露权重折半处理,反映部分工具集成的现实可能性。
- 指标范围: GAISI值在0-1之间,反映职位中任务受生成式AI提升的整体比例[page::8,9,10,11]。
---
2.5 英国劳动力市场中的AI暴露图谱 (Mapping the Reach of Generative AI in Britain’s Workforce)
- 任务暴露统计:
- Gemini 1.5 Pro五次评分结果表明,平均有25%任务被评为E1直接暴露,24%为E2潜在暴露,E3图像暴露极少(约1%),合计约50%的工作任务可因生成式AI获益。
- 岗位暴露跨工作者表现:
- 平均GAISI约为0.40,反映典型工作任务中40%具备显著AI提升潜力,对应6%-10%的总体时间节约。
- 94%的岗位至少有20%的任务暴露于生成式AI,呈现高度普适性。
- 仅13%的岗位任务暴露超过50%,多职位主要呈现内部时间调配而非全面替代特征。
- 高技能职业(如ICT专业人员、科研管理岗位)暴露度最高,低技能岗位暴露度明显较低。
- 工人群体之间差异:
- 性别、年龄、种族差异通过职业排序解释大半,教育差异最显著(研究生与中学毕业生之间GAISI差约10个百分点)。
- AI实际使用情况:
- 根据2023-24年SES数据,AI使用概率与GAISI正相关。顶端五分位工人在2023年底AI使用率达32%,2024年上升至48%;低端五分位保持7%,表明任务驱动的AI采纳模式。
- 时间趋势:
- 2017-2023年间,GAISI整体上升1.8个百分点,增长主要源于劳动人口向AI暴露度较高职业的结构性转移,而非单职业任务内容变动。
- AI暴露任务仍保持溢价待遇,2017年内职溢价约4.9%,跌至2023年4.4%,显示价格溢价出现轻微衰退。
- 劳动力需求变动:
- ChatGPT推出后,高AI暴露岗位招聘需求急剧下降,至2024-25年显现出岗位减少约6.5%的趋势,表明替代效应可能超过生产率带来的就业增长。
- 高暴露岗位在2025年5月预估减少74,000个招聘岗位,反映对劳动力市场冲击的规模[page::12,13,14,15,16,17,18,19]。
---
2.6 GAISI测量性质评估 (Evaluation Principles and Results)
- 理论框架与指标定义:
- 采用Messick(1995)的效度综合框架,强调内容效度(任务覆盖)、实质效度(理论动作链接)、结构效度(测量一致性)、外部效度(与现有指标对比及预测力)、推广性(跨模型、跨数据的稳健性)和效应效度(测量偏倚)六维评估。
- 评价基于LLM多模型评分的一致性(ICC)、任务内容覆盖率、LLM解释文本编码分析、多指标相关和预测力检验。
- 关键假设包括:暴露定义基于25%任务时间节省,评分为概率分布,潜在暴露半权重叠加。
- 可靠性(ICC分析):
- Gemini 1.5 Pro五次评分重复性极高,平均评分ICC达0.99,单次评分也在0.94以上,展现极强内部一致性和稳定性。
- 内容与实质效度:
- SES任务覆盖约30%工作时间,涵盖手动、认知、情感及管理多领域,基本涵盖AI暴露潜力任务。
- 绝大多数任务能区分无暴露(E0)与直接/潜在暴露(E1/E2),表现出良好的内容区隔能力。
- LLM给出的任务解释合理对应各类认知技能,比如文本生成、知识检索、信息分析、规划调度等,且这些解释对GAISI数值有显著解释力(计量模型解释力60%),体现实质效度。
- 外部效度:
- GAISI与Felten等(FRS)AI暴露指标高度相关(ρ=0.83)。与专门针对LLM的FRS指标也有强相关(ρ=0.77),但与早期自动化指标(Frey & Osborne,Webb机器人等)负相关,体现区别性和针对性。
- 多元回归分析进一步验证GAISI在控制其他自动化指数后仍显著,与数字技术使用的关系保持稳定。
- 预测AI自报使用情况,GAISI的边际效应最大(约12-14个百分点增幅),AUC达0.73,优于现有指标,显示较强预测力。
- 推广性与稳健性:
- 通过提示变化、LLM模型替代(GPT-4o、Gemini 2.5 Pro)和折权调整检验指标稳定性均表现良好。
- 将GAISI方法理应用于经OECD SAS 2023国际数据,指标表现高度一致,表明良好推广潜力。
- 效应效度(残差偏差检验):
- 在扣除职业和任务重要性信息后,残差与工人性别、年龄、种族、教育关联极低(<1%测量误差),说明索引偏差较小,适合政策引导。
总结以上,GAISI在统计与理论上均表现为一个可靠、有效且具预测能力的生成式AI暴露测量工具[page::20,21,22,23,24,25,26,27,28,29,30,31,32]。
---
3. 图表深度解读
图1:GAISI 分类流程图(第11页)
- 内容描述: 流程图清晰描绘了从44个通用任务划分至12个类别,结合25个职业组,生成1100个职业-任务组合,经LLM评分产出四类别暴露概率分布,最后结合SES任务重要性数据计算工人层面暴露得分。
- 解读: 该图说明暴露度指数不仅考虑任务特质,也融合职业上下文,实现了任务与职业的细分交叉赋权,为任务级别生成式AI暴露评估提供基础。
- 作用: 支撑论文方法论创新点,展示测量的系统性、细粒度和数据融合优势。
-

---
表3:生成式AI暴露分布(第12页)
- 内容描述: 展示基于Gemini 1.5 Pro模型5次评分的四个暴露等级分布,E1(直接暴露)约24.5%,E2(潜在暴露)约23.8%,两者合计接近一半任务受AI影响。
- 趋势分析: E0(无暴露)占约50.6%,体现多数任务AI不可或难辅助;E1和E2均保持稳定且相近比例,表明直接与整合型AI暴露并重;E3图像暴露极低。
- 文本联系: 与文本中指出的AI对任务提升潜力的定量化吻合,支持生成式AI在工作中具广泛但多为部分暴露状态的观点。
---
表4:工作任务层面AI暴露描述(第13页)
- 内容描述: 结合SES调查,4674名样本加权后,直接LLM暴露任务占比均值0.26,潜在暴露0.27,GAISI均值0.40。
- 意义解读: 表明典型岗位约40%任务具备超出现有工具的生成AI提升潜质,极大提升了对AI影响度的细粒度量化理解。
- 风险与不确定性指示: 潜在暴露部分较大,说明部分效率增益需依赖后端系统集成,实际落地存不确定性。
---
图2:GAISI在岗位中的分布(第14页)
- 内容描述: 累积分布直观显示94%的岗位至少有20%的任务暴露,13%的岗位暴露超过50%。
- 趋势说明: 绝大多数岗位呈现中度暴露,真正高度AI依赖岗位较少。
- 政策启示: 说明生成式AI对劳动市场影响应注重任务内时间重分配而非全面岗位替代。
-

---
表5:不同技能水平和职业的GAISI均值(第14-15页)
- 内容描述: 高技能职业GAISI均值最大(约0.474),手工或低技能职业最低(约0.236)。ICT专业、研究经理等科技岗位暴露最高,体力劳动岗位暴露最低。
- 逻辑联系: 反映生成式AI主要影响认知密集型职业,与传统以机械自动化替代体力劳动形成对比。
---
图3:不同群体GAISI平均值差异(第15页)
- 内容描述: 呈现男性女性、年龄段、族群、教育水平等分组的GAISI均值。差异主要由职业分类导致。
- 含义解析: 教育分化尤为显著,技术素养及职位选择影响AI暴露水平。
---
图4:GAISI五分位数与人工智能使用概率(第16页)
- 内容描述: 明显看到AI使用概率随GAISI增加而线性升高,2024年高暴露五分位AI使用率达到近50%。
- 政策意义: 证明GAISI指标与劳动者实际的人工智能采用紧密相关,验证指标预测效力。
---
图5:2017-2023年生成式AI暴露及职业结构变化(第17页)
- 内容描述: 左图显示GAISI整体提升,源于职业结构改变而非单职业内部任务变化;右图显示高初始GAISI职业就业份额增长更快。
- 解释: 证明了劳动力市场中生成式AI暴露随着职位结构变化而上升,非简单任务重新划分结果。
---
图6:AI暴露与英国招聘需求的动态关系(第19页)
- 内容描述: 自ChatGPT发布后,AI高暴岗位招聘广告数量显著降低,跌幅最大达23%左右,疫情影响相比更短暂且幅度较小。
- 整体分析: 早期明确的岗位替代迹象,与报告中劳动力需求减少观点相符。
---
图7:12大任务类别暴露等级热图(第23页)
- 内容描述: 手工、情感、协作主要无暴露(E0),写作类任务集中在直接暴露(E1),部分管理和专业任务有较高潜在暴露(E2)。
- 含义: 展现SES任务集覆盖与任务暴露多样性的平衡,有效支持GAISI的区分能力。
---
图8:不同任务类别对应的AI功能诉求热图(第25页)
- 内容描述: 不同任务组侧重解释为文本生成、知识检索、分析、规划等能力,而管理群体现多维度综合功能需求。
- 解读: 与生成AI的技术功能定位相符,强化实质效度。
---
图D1:国际比较生成式AI暴露分布(第47页)
- 描述: 各国家劳动力市场中,生成式AI暴露得分相对均衡,瑞士、英国等发达经济体略高,差异主要体现在低暴露尾部。
- 结论: 生成式AI暴露的国际普遍性和不同经济体间的结构性差异可被GAISI捕获。
---
图D2:跨职业大组的暴露分布(第48页)
- 描述: 管理者、专业人员暴露度高且分布集中,体力和操作工暴露度低且分布松散,反映生成式AI主要影响白领认知技能型岗位。
- 启示: 白领岗位面临普遍且一致的AI工作特性变革风险。
---
图D3:欧洲国家高低AI暴露职业就业趋势(第51页)
- 内容: 高AI暴露职业就业保持微弱增长,低暴露职业就业受到疫情及其他因素影响呈下降趋势,发布GPT未引起显著趋势转折。
- 政策提醒: 中短期来看,生成式AI对整体就业规模的影响尚不显著,但结构性调整已在慢慢体现。
---
4. 估值分析
本报告非财务估值报告,不涉及企业或资产估值模型。目前报告聚焦于基于任务的AI暴露度指数构建及其在劳动力市场层面的描述性、预测性分析,因此无具体估值方法论内容。
---
5. 风险因素评估
- 主要风险识别:
- 任务覆盖不足:SES任务覆盖工作时间约30%,遗漏部分细分任务可能带来GAISI估计的偏差。
- 指数折权和阈值选择:25%时间节省临界值较为主观,折权0.5也属于假设,尽管敏感性分析验证了稳健性。
- 数据时间滞后与技术进展差异:LLM评分基于2023-2025知识截止点,生成式AI技术演进速度快,可能使现有指数滞后。
- 人工智能具体应用和行业扩散:AI集成度和行业差异导致潜在暴露程度和生产率实现存在不确定性。
- 测量偏见和刻板印象*:尽管报告通过残差相关分析检测了性别、年龄、种族、教育的潜在偏见,发现量化影响微弱,但仍需关注。
- 影响评估: 这些风险可能导致GAISI对某些职业或群体的AI暴露度判断偏高或偏低,影响政策制定和劳动力市场预测准确性。本文通过广泛的有效性测试和稳健性验证降低了这些风险影响。
- 缓解策略: 利用多种数据集、不同模型、多次评分降低噪音,敏感性分析调整参数,报告公开评分方案以利进一步优化[page::20,21,31,32]。
---
6. 批判性视角与细微差别
- 优势:
- 在任务层级而非职业层级进行AI暴露定量创新,精细捕捉劳动内容差异。
- 结合人类自报任务数据和LLM自动评分,提升了测量的代表性和客观性。
- 多维度效度检验(内容、实质、外部等),且提供了模型和数据稳健性分析。
- 关注潜在暴露与实际AI使用差异,赋予政策和理论应用价值。
- 局限与待改进之处:
- SES任务覆盖度有限(仅约30%工作时间覆盖),这限制了GAISI对全部劳动内容的捕捉。
- 25%节省阈值具备一定的任意性,不同行业、岗位间效率增益敏感度不同,可能影响跨领域比较。
- 潜在暴露权重设定为0.5的折权系数虽基于数据验证,但现实扩散情况难以准确预判。
- LLM评分基于此前训练数据,可能带来信息交叉或先验偏见,尤其涉及隐含的职业定型刻板印象。
- 目前尚未充分考虑新兴任务的生成,任务创造可能影响劳动需求、超出现有任务定义范畴。
- 国际适用性虽有初步验证,跨国异质性因素需进一步深入研究。
- 内部一致性: 报告整体结构严密、一致,清晰解释了方法论框架与假设,未发现根本性自相矛盾之处。
---
7. 结论性综合
本文系统开发和验证了一个基于任务的生成式人工智能暴露指数——GAISI,利用LLM对SES任务-岗位组合概率式赋分,结合工人自报任务重要性权重,构建出细粒度、跨职业的AI任务暴露度指标。结果显示:
- 生成式AI对英国就业岗位影响广泛,94%的岗位至少部分受影响,然而只有约13%的岗位任务高度暴露。
- AI暴露程度随岗位技能要求提升,认知密集型高技能岗位受影响最大,呈现与传统自动化截然不同的技术影响路径。
- 近些年AI暴露水平增长主要由劳动市场结构性变化推动,即劳动力向高AI暴露岗位流动。
- AI暴露岗位仍享有一定的工资溢价,但该溢价在2017至2023年间轻微下降,表明AI技术对技能需求产生竞争压力。
- ChatGPT推出后,高暴露岗位招聘需求显著下降,岗位空缺减少,初步证据表明生成式AI的替代效应已显现且超过生产率带来的就业增长。
- GAISI展现出极高的测量可靠性、优异的内容与实质效度、高度的预测准确性及跨模型、跨数据的稳健性,优于以往基于美国数据的指标,具有广泛政策应用价值。
- 国际数据验证表明GAISI在不同国家劳动市场中表现一致,体现良好的国外推广潜力。
- 评价中发现指数较少受到人口统计学偏见影响,保障了指标的公平性与政策适用性。
综上,GAISI为理解生成式AI对劳动力市场影响提供了强有力的新工具,揭示了生成式AI技术极大地重塑了英国乃至更广泛地区的劳动力结构和就业动态,并为未来相关研究和政策制定奠定了坚实的实证和方法论基础[page::0-33,40-51]。
---
总体评价
本篇报告在生成式AI影响经济和劳动力结构的研究前沿,结合社会调查微观数据与前沿AI技术评估方法,实现了创新性的任务级别AI暴露度量化。其细致的有效性和可靠性分析,齐备的数据源应用,以及对后续实际劳动市场影响的早期实证监测,均体现该项工作在学术和政策领域的高价值与参考意义。
---
若需针对报告中某一部分或表格作更深入细节解析,欢迎继续询问。