Privacy-Enhancing Collaborative Information Sharing through Federated Learning – A Case of the Insurance Industry
创建于 更新于
摘要
本报告展示了联邦学习(FL)技术在保险行业中的应用,通过在不共享原始数据的情况下,多方协作训练模型,有效提升了理赔损失预测的准确率。研究以神经网络为基础架构,探索了水平联邦学习(HFL)增加数据量和垂直联邦学习(VFL)增加特征多样性的效果。实证结果表明,FL框架不仅缓解了数据隐私保护难题,也明显改进了模型性能,促进了保险公司与InsurTech公司基于不同数据源的高效协同。该技术未来可扩展至欺诈检测等其他保险业务领域,为多方、安全、隐私保护的机器学习合作奠定基础 [page::0][page::4][page::13][page::17][page::19]
速读内容
- 研究背景与挑战 [page::1][page::3]
- 保险行业数据存在隐私敏感性及分散存储,难以实现数据集中与共享。
- 数据质量受限于样本数量(数据体量)和特征种类(数据多样性),限制了机器学习模型的性能提升。
- 传统机器学习难以兼顾跨机构合作与隐私保护需求,亟需新技术支持。
- 联邦学习(FL)简介与分类 [page::2][page::11][page::12]
- FL允许多个数据所有者在本地保留原始数据,通过共享模型参数实现协同训练。
- HFL(水平联邦学习):多个机构数据具有相同特征空间,不同样本,适合提升样本量。

- VFL(垂直联邦学习):多个机构数据共享样本,但特征不同,适合扩展特征维度。

- 实验数据与设计 [page::13][page::14][page::15][page::16]
- 参与方包括两家保险公司(BOP和GL,两类商业险数据)和一家InsurTech公司(提供额外555个特征)。
- HFL实验:两保险公司在相同特征集上利用各自数据集独立训练再联合聚合。
- VFL实验:保险公司和InsurTech公司在同一批样本不同特征上联合训练,保险公司持有标签。
- 基础模型使用前馈神经网络(FNN),采用FedAvg算法进行聚合。
- HFL实验结果(提升数据体量)[page::18]
| Collaborator | Split | Mode | PE |
|----------------|-------|---------|----------|
| Collaborator A | Train | Local | -0.16 |
| Collaborator A | Train | HFL | -0.07 |
| Collaborator A | Test | Local | -0.18 |
| Collaborator A | Test | HFL | -0.09 |
| Collaborator B | Train | Local | 0.22 |
| Collaborator B | Train | HFL | 0.13 |
| Collaborator B | Test | Local | 0.23 |
| Collaborator B | Test | HFL | 0.16 |
- HFL显著优化了双方的理赔损失预测误差(PE),弱化数据稀缺影响。
- VFL实验结果(提升数据多样性)[page::19]
| Collaborator | Split | Mode | PE |
|---------------|-------|----------|----------|
| Company A | Train | Local | -0.16 |
| Company A | Train | VFL | -0.07 |
| Company A | Test | Local | -0.18 |
| Company A | Test | VFL | -0.04 |
- VFL有效利用InsurTech公司扩展的特征,提升模型预测精度。
- 隐私保障措施 [page::9][page::10][page::11]
- 本研究采用开源框架OpenFL,结合可信执行环境与算法保护,降低模型更新导致的数据泄露风险。
- 联邦学习框架保证原始数据不离开本地,提高合作意愿和法律合规性。
- 研究意义与应用前景 [page::0][page::20]
- 联邦学习为保险业提供了突破隐私壁垒的数据协作方式,助力保险定价、承保、欺诈检测等多场景。
- 该模式促进跨机构、跨领域的多方协同创新,提升行业整体智能化水平。
深度阅读
报告深度解析报告
---
1. 元数据与概览
- 标题: Privacy-Enhancing Collaborative Information Sharing through Federated Learning – A Case of the Insurance Industry
- 作者与机构: Panyi Dong, Zhiyu Quan(伊利诺伊大学厄巴纳-香槟分校);Brandon Edwards, Shih-han Wang, Patrick Foley, Prashant Shah(英特尔公司);Runhuan Feng(清华大学);Tianyang Wang(科罗拉多州立大学)
- 发行时间: 未明确提及发布日期,但引用文献最新至2022年,推断为2022年或2023年初
- 主题: 保险行业中的隐私增强型协同信息共享,利用联邦学习(Federated Learning, FL)技术在保护数据隐私前提下实现多家保险公司的数据联合建模,改善理赔损失预测能力。
本报告核心论点为:利用联邦学习技术,保险公司可以在不共享原始数据的情况下,共同训练更有效的理赔损失预测模型,解决因隐私和数据稀缺导致的保险行业数据体量和数据多样性不足的问题。报告展示了采用英特尔开发的开源框架OpenFL进行实验验证,证实联邦学习在保险业的应用潜力与实用价值。报告还认为,此方法可推广用于反欺诈、灾害建模等类似需求的数据隐私密集领域。[page::0]
---
2. 逐节深度解读
2.1 引言部分(第1页 - 第2页)
关键论点总结:
- 保险行业极度依赖政策持有人及外部风险数据,机遇与挑战并存。
- 传统中心化机器学习方法因数据隐私限制无法实施。
- 保险数据因行业竞争、隐私法规导致严重的数据孤岛现象。
- 目前的风险还涉及ML模型归属权、算法公平性、法规监管及数据隐私等问题。
- 监管机构亟需建立透明、负责、可解释的AI发展环境。
支撑逻辑及假设:
- 引用文献指出ML模型对保险核保、赔付预测、储备和反欺诈均有显著提升作用。
- 保险数据隐私和权责界定复杂,使得集中式数据存储和共享难以实现。
- 认为需在保护隐私前提下找到创新协同解决方案。
[page::1][page::2]
---
2.2 联邦学习框架介绍与保险行业应用(第2页 - 第4页)
重点内容提炼:
- 定义联邦学习(McMahan et al., 2017)为分布式训练方法,在数据物理不出本地的条件下完成模型训练。
- 将联邦学习视为隐私增强的协同学习技术,特别适合多数据所有者的保险行业。
- 案例中展示各公司独立训练模型,参数上传至集中服务器进行模型聚合,避免数据外泄。
- 已获得多家保险机构及InsurTech合作伙伴提供真实私有数据支持实验。
- 利用联邦学习解决数据量小及数据多样性不足两大痛点。
- 该技术可在保险公司、监管机构、工业协会之间促进合作。
假设与推理:
- 认为多机构合作所集成的累积知识优于单一机构数据训练。
- 保险公司之间的异构数据可能被有效融合,提升整体风险评估水平。
- 联邦学习与可信执行环境及隐私保护算法结合可减低模型推断泄露风险。
[page::2][page::3]
---
2.3 保险行业数据隐私与数据不足问题(第3页 - 第9页)
行业背景介绍与挑战说明:
- 保险行业涉及多条产品线,流程复杂,监管严格。
- 数据体量和数据特征均受到保密法规限制,导致模型训练受限。
- 保险理赔事件(事故)极其稀缺,如部分险种索赔率不足10%,甚至低至0.1%。
- 传统采样手段因破坏数据分布,在保险领域难以接受。
- 需要技术解决方案模拟共享全局训练数据集的能力。
两种联邦学习场景定义:
- 水平联邦学习 (HFL):多家保险公司数据行数不同但特征相同,数据按观察对象“横向”分割。可增加数据量。
- 垂直联邦学习 (VFL):保险公司与InsurTech等合作,拥有相同观察对象但特征不同,数据按特征“纵向”分割。可增加数据多样性。
隐私顾虑和保护机制:
- 提到虽然传统数据中心集中存储效率高,但隐私风险巨大。
- FL 保证数据不出本地,仅交换模型参数和评估指标。
- 采用OpenFL框架,结合可信执行环境和信息泄漏缓解算法,保护训练过程中的隐私安全。
[page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10]
---
2.4 方法论:联邦学习模型架构及训练流程(第10页 - 第13页)
模型选择:
- 选用神经网络(Neural Network, NN)架构,特别是Feedforward Neural Network(FNN),因其训练效果优异、适应联邦学习训练调整灵活。
- 神经网络示意如图1(输入层,隐藏层,输出层),其反向传播算法自然适合联邦学习中本地更新模型参数。
FL训练框架结构:
- 参与者分为多名数据协作者和中央服务器。
- 数据协作者独立使用本地数据训练模型更新,上传更新参数给中央服务器。
- 中央服务器不接触原始数据,仅聚合参数生成共享全局模型再下发。
- 中央服务器角色仅为通信中枢,保证数据隐私安全。
联邦学习数据划分类型:
- 水平数据划分(图2):所有参与者特征相同,观察对象(行)不同。
- 垂直数据划分(图3):部分观察对象重叠,特征(列)不同,其中一方持标签信息。
[page::10][page::11][page::12]
---
2.5 实证研究:数据描述与实验设计(第13页 - 第17页)
数据概况:
- 两家保险公司及一家公司(Carpe Data)参与。
- $\mathcal{D}{BOP}$: 392,726条观测,26个特征,商业责任保险(BOP)业务,含标签(理赔损失)。
- $\mathcal{D}
- Carpe Data(InsurTech):提供555个额外特征,606,583条观测,与保险公司对应客户重合,无标签。
实验设计:
- 采用FNN模型结构。
- 水平联邦学习(HFL)实验:两个保险公司合作,数据特征相同、标签各自持有。
- 垂直联邦学习(VFL)实验:保险公司持有部分特征及标签,InsurTech持有额外特征,共同训练。
联邦更新细节:
- HFL中使用FedAvg算法,两个协作者迭代训练本地模型,参数平均汇聚更新。
- VFL采用SplitNN模型结构,特征持有者与标签持有者分别训练局部模型,交互中合并中间表示完成联合学习。
[page::13][page::14][page::15][page::16][page::17]
---
2.6 实验结果与分析(第17页 - 第19页)
评价指标:
- 采用Percentage Error (PE)指标衡量预测准确性:
$$ PE(\mathbf{y},\hat{\mathbf{y}}) = \frac{\sumi(yi - \hat{y}i)}{\sumi y_i} $$
- PE值越接近0,预测越准确,业务意义重大,表示模型整体盈亏预测的精度。
实验结果表格分析:
- 表1(HFL性能)显示,合作后,协作者A训练集PE由-0.16提升至-0.07,测试集由-0.18调整至-0.09。
- 协作者B训练集PE由0.22降至0.13,测试集由0.23降至0.16。
- 说明双保险公司联合增加了数据体量,有效提升了模型预测精度。
- 表2(VFL性能)显示,保险公司(协作者A)通过与InsurTech合作后,训练集PE由-0.16改善至-0.07,测试集由-0.18改善至-0.04。
结论:
- 水平与垂直联邦学习均显著提升了模型性能。
- 这种隐私保护的协同学习方式可释放分散数据的潜在价值。
- InsurTech也获得了定制客户服务的业务洞察力。
[page::18][page::19]
---
2.7 报告结论与未来展望(第19页 - 第20页)
总结:
- 联邦学习为保险行业打破数据孤岛、推动多方合作提供可行技术路径。
- 以往因数据私密性难以开展跨公司数据联合建模,而联邦学习保留数据所有权的特点满足了这一需求。
- 提升理赔损失预测能力,间接促进核保、风险管理、偿付能力及合规操作优化。
- 展望未来,可进一步应用于反欺诈和保险行业的其他大数据需求场景。
[page::19][page::20]
---
3. 关键图表深度解读
3.1 图1:神经网络结构示意(第11页)
- 描述了典型的三层结构:输入层、隐藏层和输出层,节点间的连接示意了信息流方向。
- 反向传播算法支持局部更新适应联邦学习多节点架构。
- 为后续联邦学习模型架构设定基础支撑。

---
3.2 图2:水平数据划分示意(第12页)
- 以两个数据协作者A、B数据在"横向"分割方式展示。
- 表示两者拥有相同特征集,但数据观测对象不同(行不同)。
- 展示HFL训练的直观数据场景基础。

---
3.3 图3:垂直数据划分示意(第12页)
- 标示两个数据协作者A、B数据"纵向"划分。
- 两者在观测样本上存在重叠,但特征不同,且仅一方有标签。
- 展示VFL应对多源异构数据融合的场景。

---
3.4 表1:HFL实验的性能结果(第18页)
- 关键数值说明:
- 协作者A训练集PE从-0.16提升到-0.07;测试集从-0.18提升到-0.09。
- 协作者B训练集PE从0.22降至0.13;测试集从0.23降至0.16。
- 趋势解析:联邦学习合作明显减少了预测误差的绝对值(无论正负),说明联合训练模型更准确。
- 意义链接:表格实证支持了联邦学习增加数据体量带来模型性能提升的核心观点。
---
3.5 表2:VFL实验的性能结果(第19页)
- 关键数值说明:
- 协作者A训练集PE从-0.16改进到-0.07;测试集PE从-0.18提升到-0.04。
- 趋势解读:通过增加额外特征(数据多样性),模型预测更精准。
- 支持文本:确认VFL能够利用InsurTech提供的额外信息提升保险公司模型性能,进而提升业务价值。
---
4. 估值分析
报告未涵盖具体的企业估值、业务估值或财务预测,亦无DCF、P/E、EV/EBITDA等估值模型内容。核心焦点为机器学习模型性能及其业务影响力,没有涉及财务数据估算或估值计算。
---
5. 风险因素评估
报告列举的风险及挑战包括:
- 数据隐私和敏感信息泄露风险。
- 联邦学习模型参数可能存在信息泄漏可能性(引用Zhu et al.,2019),但通过OpenFL框架结合可信执行环境等措施减缓风险。
- 法规监管不断变化,带来合规风险及技术使用限制。
- 数据异构性和多样性导致合作难度。
- 模型归属权、算法公平性等法律伦理难题。
缓解策略:
- 采用隐私保护算法和可信执行环境确保训练过程安全性。
- 利用开源框架OpenFL实现安全通信和算法完整性。
- 多方协作建立研究基础,增强行业技术成熟度和标准化。
---
6. 批判性视角与细微差别
- 报告依赖于多方合作采集的专有数据,但未详细描述数据质量一致性、缺失情况等实际挑战。
- PE指标虽直观,但模型性能的其他如偏差、方差或更细粒度表现未披露。
- 联邦学习通信成本、计算延迟及扩展至多方合作的复杂性未深究。
- 在VFL中采用SplitNN结构合理,但未涉及潜在安全攻击面,例如中间表示反推风险。
- 报告对法律监管和伦理问题提及较为概括,未提供具体合规策略。
- 模型及实验侧重于神经网络,未验证其他模型架构适配性和表现。
---
7. 结论性综合
本报告系统阐述了基于联邦学习的隐私增强型协同机器学习在保险行业中应用的重要意义及实证成效。核心发现包括:
- 通过水平联邦学习(HFL),多家保险公司基于共同特征、不同客户数据,联合训练共享模型,有效提升理赔损失预测准确度,减少了预测误差(训练集PE约从-0.16改善至-0.07,测试集从-0.18至-0.09),提升了风险识别的精准性和业务竞争力。
- 通过垂直联邦学习(VFL),保险公司与InsurTech企业跨界融合异构数据,扩展风险特征空间,进一步优化模型性能(PE由-0.18提升至-0.04),这反映了数据多样性带来的模型性能提升潜力。
- OpenFL框架结合可信执行环境及隐私保护算法,有效缓解了模型训练过程的隐私泄露风险,符合保险行业严格的数据安全和法规要求。
- 神经网络架构灵活适配联邦学习训练,支持横纵向数据划分方式训练方案,建成了具有通用意义的保险行业联邦学习基础设施。
- 报告指出此技术路径有望在保险以外的领域(如反欺诈、灾难模型)得到推广,体现了方法的广泛适用性和行业推动潜力。
从图表和数值上看,数据体量和多样性对提升模型性能具有显著正面作用,联邦学习有效实现了数据“联合训练”而无原始数据外泄,为保险业在数据隐私约束下的智能化升级提供了强有力技术支持。该报告不仅填补了保险行业中FL应用的研究空白,也为产业界后续实际部署奠定了坚实基础。[page::0-20]
---
总结
此报告详尽展示公益性高校与产业合作,如何借助先进联邦学习框架和神经网络模型,克服保险行业数据隐私壁垒,联合提升理赔损失建模精度。报告结合多个实际保险公司及InsurTech数据资产,采用水平和垂直联邦学习策略,使参与机构基于更大规模与多元数据集训练模型,而无需共享原始数据,完美结合了数据隐私与模型性能提升的双重要求。经实证验证,预测精度显著提升,极具商业与社会价值。报告同时明确指出,平台采用可信执行环境与算法安全措施,保障数据隐私安全性,提高监管合规透明度。尽管报告在部分实验细节、合规策略及多样算法适配方面尚留空间,但无疑为保险行业智能化转型提供了创新范式与应用路线。