`

Cross-Domain Behavioral Credit Modeling: transferability from private to central data

创建于 更新于

摘要

本报告构建基于行为数据的企业信用风险评估模型,采用Experian私有数据训练并测试于意大利央行中央信用登记数据,验证模型的跨域迁移能力和预测准确性。模型由三阶段组成,实现默认概率预测、校准及评级划分,结合特征选择与SHAP解释性分析,确保性能和透明度。通过严谨的映射和统计检验,确认Experian数据为中央信用登记数据子集,且模型在中央数据上准确性接近训练表现,展现了利用外部行为数据提升金融信用评估的潜力 [page::0][page::2][page::5][page::11][page::20][page::22]

速读内容

  • 样本和目标定义 [page::3][page::4]


- 基于Experian数据,涵盖约170万意大利法人,主要为企业客户。
- 目标为12个月内逾期90天及以上的违约定义,含不良贷款和“不太可能偿还”风险。
- 过滤无活跃合同或过去存在破产记录的样本,最终2.9百万条记录,违约率约3.5%。
  • 特征工程与筛选 [page::5][page::6][page::7]


- 输入初始含266列,剔除缺失率超过20%及高共线性特征。
- 采用Boruta算法与LightGBM SHAP重要性,最终筛选出20个高关联变量。
- 重要特征示例:最长逾期个月数,最大逾期天数,开信用额度比率及NACE行业嵌入等。
  • 模型基线与架构 [page::8][page::9][page::10]

- 使用Experian行业评分DG3r、传统逻辑回归及AutoML(AutoGluon)作为对比基线。
- 最终采用LightGBM模型实现三级流程:1) 二分类违约概率预测 2) 概率校准 3) 评级分箱。
- 利用贝叶斯超参数优化(Optuna)与时间序列交叉验证确保模型鲁棒。
  • 结果表现与解释性 [page::11][page::12][page::13][page::14][page::15][page::16][page::17]

| 指标 | Out-of-sample | Out-of-time |
|----------------|---------------|--------------|
| AUC | 0.927 | 0.920 |
| Recall | 0.906 | 0.907 |
| Fβ Measure | 0.813 | 0.790 |
| Average Precision| 0.684 | 0.664 |













- SHAP分析揭示最重要变量如逾期最长月份(WorstPaymentDelay6months)和最大逾期天数(Maxpastduedays6_months)对违约概率的正向驱动。
- 不同行业嵌入与公司法人类型对风险解释具有差异,提升模型透明度。
  • 量化因子及策略总结 [page::6][page::7][page::15]

- 因子构建基于行为特征系列,包括逾期标志、贷款余额比例、合同活跃数等,以LightGBM和SHAP评估变量贡献。
- NACE行业分类通过句子嵌入和自编码器获得高维语义向量,弥补传统分类缺陷。
- 特征选择兼顾解释性与预测力,减少冗余变量,提高模型简洁度。
  • 中央信用登记数据映射与验证 [page::17][page::18][page::19][page::20][page::21]

- 中央信用登记(CR)数据涵盖全意大利银行体系借贷记录,粒度较Experian数据粗。
- 设计映射规则,将CR多个风险类别与Experian特征对齐,区分直接转换和代理映射特征。
- 利用非参数统计测试(Wilcoxon签名秩检验、McNemar检验)和多重检验控制(Benjamini-Yekutieli程序)确认Experian数据为CR数据的子集。
- 预测结果通过肯德尔Tau检验显示两数据来源模型预测间存在显著相关性。
- 基于CR的回测验证显示模型性能稳定,AUC约0.90,召回率0.89,分类指标与训练阶段相当。

| | Predicted Negative | Predicted Positive |
|---|--------------------|--------------------|
| Actual Negative (in bonis) | 0.70 (1116) | 0.30 (489) |
| Actual Positive (defaulted) | 0.11 (40) | 0.89 (327) |

| 指标 | 值 |
|------|----|
| AUC | 0.903 |
| Recall | 0.891 |
| Specificity | 0.695 |
| Fβ Measure | 0.795 |
| Average Precision | 0.757 |
  • 结论 [page::22]

- 提出了一种结合私有与中央行为数据的企业信用评分模型,性能优良且迁移性强。
- 映射与双重验证策略保证模型在不同数据源间的可靠性。
- 该模型方案可为金融机构提供更加全面和动态的信用风险评估工具。

深度阅读

金融研究报告详尽分析报告


报告标题: Cross-Domain Behavioral Credit Modeling: transferability from private to central data
作者: O. Didkovskyi, N. Jean, G. Le Pera, C. Nordio
发布机构: illimity.Al
发布日期: 2024年1月19日
研究主题: 个人与企业信贷风险行为建模及模型迁移性研究,重点在利用私有信贷行为数据设计信贷风险评分模型,以及测试该模型对由国有中央信用登记处数据的迁移能力。

---

1. 元数据与概览



本报告提出了一种基于行为数据的企业信贷风险评级模型,核心意图是构建一个能够在不同数据源之间迁移的模型,并实现对借款人违约概率的准确预测。报告使用了私有数据提供商Experian的数据集训练该模型,随后将模型迁移应用于意大利银行业的中央信用登记处(Central Credit Register,简称CR)数据进行了测试,验证模型在不同数据结构和数据维度下的可用性和稳定性。

报告通过结合机器学习和统计学方法,在强调模型预测准确性的同时,着重模型解释性(利用SHAP值)以及风险评级的构建。报告在评级类划分中采用了进化算法。最终,报告强调了整合公开与私有数据的潜力,有望为银行业信贷风险管理提升准确度和精细化水平。

关键词涵盖了信用风险、行为模型、人工智能及XAI(可解释人工智能)等前沿研究方向。

---

2. 逐章节深度解读



2.1 报告结构与引言(Introduction)


  • 关键论点:

传统企业信贷评估一般依赖年报和财务报表,但其更新频率较低且延时显著,无法捕捉年度内公司财务波动。行为模型则通过动态的银行账户余额、贷款逾期等多维度行为数据,更精细地反映企业偿债行为。大企业评分侧重财务报表,小微企业则更重视行为指标。
近年来机器学习技术被引入信贷评分建模,能揭示非线性复杂关系。本文借鉴相关文献基础,搭建三步模型(违约概率估计、概率校准、评分等级划分),并设计特征映射方法,使得基于Experian私有行为数据训练的模型,可以迁移应用于中央信用登记处较粗粒度公开数据。验证采用两个步骤:多重假设检验确保数据相关性,历史数据回测验证模型有效性。
  • 推理依据和假设:

模型假设行为数据具有高度的预测能力,并且即便两套数据维度差异明显,通过合理的特征映射,模型依旧能稳定迁移,实现跨数据库信贷风险判定。

---

2.2 Experian数据描述(Section 1)


  • 数据特点:

Experian数据涵盖约170万意大利法人实体,历史时段覆盖2017至2019及2020至2021年,包含266个字段,半数为企业半数为个人,但研究聚焦企业样本。数据包含多类型信用行为信息,包括历史信用请求、当前余额、贷款逾期信息、法律诉讼信息及信用评分指标等。
  • 目标定义及过滤:

违约(二分类)目标基于监管定义,涵盖90天及以上逾期、坏账、不良贷款(NPL)、不太可能偿付等类别。数据经过严格筛除无活跃合同、个人和历史破产公司,形成2.9百万条训练记录,历史平均违约率为3.5%。
采用外样本和外时间验证确保模型泛化能力。
  • 图表解读:

图1反映2018至2021年企业数量及违约率基准,展示企业样本数量稳步增长,违约率维持3.3%-3.9%区间,说明数据稳定且符合宏观违约水平。

图1:企业数量及违约率

---

2.3 特征工程与选择(Section 2)


  • 要点总结:

初始特征高达266个,经历多阶段筛选:剔除缺失超20%特征,移除共线特征(VIF方法),最后使用Boruta+LightGBM SHAP方法降至20个关键特征。对于类别特征,用James-Stein目标编码(NACE行业编码则使用基于描述的嵌入方法)。
  • 特征生成重点:

为兼容CR数据,将Experian数据按合同类别(RT、NRT)平滑映射,组合余额及逾期指标,设计关键性能指标(KPIs)如NRT/RT余额比等。
  • 关键特征解释与排序:

图2显示违约预测中最重要的特征依次是6个月未付分期数(Worst Payment Delay 6 months)、6个月最大逾期天数等,均符合直观的信贷风险逻辑。该结果验证了特征筛选策略的有效性。

图2:特征重要性排序

---

2.4 基线模型方案(Section 3)


  • 基线方法对比:

1)Experian DG3r评分:简洁但缺乏公开验证与解释性,AUC约0.86。
2)逻辑回归(stepwise forward selection):传统统计法,AUC约0.85,无能力捕获非线性行为。
3)AutoML AutoGluon:复杂模型堆叠,AUC0.90,性能较好但解释性差。

本研究中提出模型采用LightGBM,综合考虑性能与解释,可实现AUC约0.92。

---

2.5 模型架构(Section 4)


  • 三阶段设计:

(1)基于GBDT的二分类模型预测违约概率;
(2)应用Beta校准调整概率规模,使预测概率贴合实际违约概率(Brier Score等指标优化);
(3)使用遗传算法对校准后PD进行分箱评级,实现风险等级划分。
  • 技术细节:

采用Optuna自动调参,时间序列交叉验证配合$F{\beta}$指标(加重特异度权重)优化模型性能。

---

2.6 结果分析(Section 5)


  • 违约分类表现:

表1显示,模型在样本外与时间外验证AUC分别为0.927和0.920,召回率超过0.9,特异度约0.7。图3 ROC曲线呈良好判别能力。
  • 性能对比(表2):

本模型在所有主要指标上均优于基线方法,特别召回率与$F
\beta$均显著领先。
  • 概率校准效果(图4、图5):

Brier分数约1.9%,较低误差和49.3%的Brier Skill Score体现模型概率预测的高准确性和稳定性。
  • 评级分箱与统计验证(表4):

利用差分进化优化分箱,结合扩展交通灯方法和二项检验,评级从AAA至C,低统计显著且样本量极小等级警示需谨慎。
  • 模型解释性(SHAP分析,图6-8):

模型中最关键特征为历史逾期状况及开放额度使用比例,SHAP依赖性图揭示特征与违约风险间复杂非线性关系;局部瀑布图展示个体预测解析,增强模型透明度,有助信用分析师理解判定依据。

---

2.7 中央信用登记处数据应用与映射(Section 6)


  • 数据背景:

CR为意大利银行官方数据库,包含国家范围内所有企业的借贷信息,数据粒度较粗,且部分信息有限。与Experian数据相较,CR涵盖面更全面但详细程度不足。
  • 映射逻辑:

将CR的类别、余额、逾期、合同状态等粗粒度变量进行映射转换,制定了两组特征映射方案:一组直接转化,一组采用代理变量(proxy),保证与Experian变量对应,尽量保留风险信息。
  • 验证方法:

1)利用180家双数据源公司进行配对样本Wilcoxon检验、McNemar检验及多重假设调整,确认Experian数据为CR数据的子集,且两者数据间存在显著统计相关性(见表5);
2)通过历史数据回测,验证模型基于映射数据的预测能力,回测AUC约0.90,召回率0.89,表现与训练接近,效果良好。

---

3. 图表深度解读


  • 图1(公司数量与违约率)

显示了2018至2021年逐年企业样本量逐渐增加,违约率稳定在3.3%-3.9%,这一波动较小的违约率体现数据集的真实信用环境状况,支持模型训练目标的合理性。
  • 图2(特征重要性)

采用LightGBM中基于SHAP值导出的特征贡献度排序图表,最顶端的“6个月内最差支付延迟月数”显示其作为信用风险预测的关键驱动力,验证了业务逻辑,即逾期行为对违约风险的强预测性。
  • 图3(ROC曲线)

模型在两个验证集均展现接近0.92的AUC,展现了优异的区分能力,蓝色、绿色、粉色及深蓝色曲线分别代表不同类别及平均水平,均接近完美情况。
  • 图4(概率校准)

校准后的预测概率与实际违约比例高度吻合,曲线临近对角参考线,Brier分数和Brier Skill Score均支持模型概率可信度高。
  • 图5(校准后ROC)

与图3相似,校准后概率排序保持不变,AUC维持高水平,验证校准操作没有破坏模型区分能力。
  • 图6(SHAP总结图)

蓝红渐变标识特征值由低到高的重要性趋势,右偏正值意味着高特征值加剧违约概率,明确体现了非线性特征影响。
  • 图7(SHAP相关依赖分析)

多组变量之间以及变量与逾期标志的关系揭示了模型对复杂多变量交互信贷风险判断的学习,如法人性质与未逾期关闭合同的交互影响。
  • 图8(SHAP瀑布图)

单个公司预测的特征效应解析,能将模型判断细节拆解,为信贷风险管理人员提供透明解释支持。

---

4. 估值分析



报告中未涉及传统的资产估值或估价模型,属于信用风险预测及评级系统构建,故无估值分析部分。

---

5. 风险因素评估



报告未专门设风险章节,但全文中隐含风险主要体现在:
  • 模型迁移风险:由于Experian和CR数据库在数据粒度及结构上的差异,映射过程不可避免地存在信息丢失和误差,可能影响模型预测质量。

- 数据覆盖范围风险:Experian数据非全覆盖,CR数据虽全但部分变量粗糙,隐含风险偏差。
  • 业务环境风险:模型基于历史数据,若宏观/行业环境发生显著变化,模型有效性或受影响。

- 模型复杂性风险:虽然采用了Tree模型,复杂交叉特征可能导致解释难度,加上AutoML方法虽性能优但解释性低,此报告刻意权衡性能和可解释性。

报告通过多重验证和假设测试积极缓解上述风险,没有提出具体的风险应对方案,但采用了严格的数据清洗,概率校准及模型解释技术,提升稳健性。

---

6. 批判性视角与细微差别


  • 本文在强调模型迁移性时,仍然存在CR与Experian数据间结构不对称问题,尽管采用统计测试验证映射合理,但该映射建立在统计意义上的相关性,具体操作中可能存在较多局限,尤其当发生结构性宏观变动时模型稳定性待观察。

- 特征工程中对缺失值阈值和特征剔除带有人为偏好,潜在“黑盒”调整未详述,对最终特征选取有重要影响,需谨慎。
  • 模型解释利用SHAP增强理解,但对多变量相互作用的深入逻辑分析尚缺,仍有进一步深化价值。

- 评级分箱中低样本量等级表现不佳(如AA、C类被交通灯法判为红色),表明模型在极端风险区间的置信度有限。
  • 训练集中违约率为3.5%,而验证集中达到18.6%,数量差异反映样本选择偏差,实际应用时风险等级需根据业务场景重新调整阈值。


---

7. 结论性综合



本报告详实展示了一套创新的企业信用行为风险评分模型,由私有Experian行为数据训练,通过设计特征映射和数据同步策略,成功实现向意大利Bank of Italy的中央信用登记处公开数据的迁移应用。

模型选用LightGBM树模型,结合了先进的特征筛选(Boruta+SHAP),三阶段建模(违约概率估计、概率校准、评级分层)、细致的数据清洗和双重交叉验证策略,展现了较强的泛化能力与高度预测性能。即使面对两个数据维度与粒度差别明显的数据源,模型依旧保持AUC值约0.9以上,召回率高达0.9,使其在信用风险管理中具有极高实用价值。

图表定量数据分析支持模型的稳定性和可靠性,特征重要性揭示历史逾期行为和额度使用率是风险关键驱动因子,强化了信用行为数据的资产价值。基于扩展交通灯法的评级分箱方法提供了实用的风险量化等级区分方案,尽管极端风险等级样本数偏少。

研究凸显了私有与公开数据结合的潜在机会,应用统计严格性和机器学习最新技术,实现范式转变,极大促进银行信用风险评价的精细化和实时性,在未来信用风险建模领域具备重要参考价值。

---

总结



本文以严谨的方法论体系,结合真实大规模数据,充分运用统计学和机器学习技术,提出一套高性能、可迁移、具解释性的企业信用违约预测与评级系统。其创新点在于实现私有数据模型对公开银行数据的有效迁移,保证模型广泛实际适用性,解决了金融数据孤岛问题。报告内容详实,结果令人信服,对金融机构信用风险管理具有重大理论和实践指导意义。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22]

报告