`

Machine and Deep Learning for Credit Scoring: A compliant approach

创建于 更新于

摘要

本报告利用梯度提升机(主要为XGBoost)在汽车贷款信用评分中,挑战并优于传统信用评分模型,显著提升违约捕获率。通过SHAP值揭示模型的可解释性,满足美国和欧洲监管要求,实现合规且高效的信用评分应用 [page::8][page::27][page::28]

速读内容

  • 研究背景与意义 [page::10]

- 信用风险管理是银行核心需求,现有统计模型难以捕捉非线性和复杂关系。
- 梯度提升树(尤其XGBoost)具有快速、高效、处理缺失值能力及捕捉非线性优势。
  • 模型理论基础与算法框架 [page::12][page::15][page::16]




- 采用CART决策树作为弱学习器,结合梯度提升算法迭代优化损失函数。
- XGBoost通过正则化控制复杂度,防止过拟合,提升速度和精度。
  • 模型开发流程与数据处理 [page::18]


- 目标变量为贷款首18个月内逾期60天或以上的违约标签。
- 缺失值不做填补,依赖XGBoost内置处理机制。
- 类别特征采用Weight of Evidence编码。
- 变量筛选主要基于XGBoost自带特征重要性结合SHAP值,无单独特征选择阶段。
  • 模型训练与性能评估 [page::20][page::21][page::22][page::23]








- 初始模型拟合真实违约概率效果一般,后调参数提升类分离能力。
- 终版模型结合原13变量及新增重要特征,参数设置详见图3.9。
  • 量化模型性能对比 [page::24][page::25]

| 模型 | KS(in-time) | KS(OOT) | AUROC(in-time) | AUROC(OOT) | PR(in-time) | PR(OOT) |
| ----- | ------------ | --------- | --------------- | ------------- | ------------ | ---------- |
| 本模型 | 47.8 | 44.91 | 0.81 | 0.80 | 0.093 | 0.093 |
| BANK A | 41.89 | 41.31 | 0.77 | 0.77 | 无数据 | 0.06 |
- 本模型在训练与交叉验证中表现稳定无过拟合,且在时间外数据集表现优于基准模型。


  • 模型可解释性与SHAP技术应用 [page::27][page::28][page::29]





- SHAP解释模型输出,揭示各特征对最终评分的贡献与交互作用。
- 不同个体得分的关键驱动因素清晰呈现,有助于满足监管“可解释性”要求。
  • 模型应用与局限 [page::29][page::30]

| | 我方模型 | BANK A |
|---|---|---|
| 样本总数 | 85,967 | 85,967 |
| 违约数 | 5,157 | 4,748 |
| 好户数 | 80,810 | 81,219 |
| 最差20% 违约率 | 6.00% | 5.52% |
| 最差10% 违约率 | 8.26% | 7.02% |
- 模型适用于FICO 8 Auto评分660以上的汽车贷款客户,仅用于贷款发放时排序。
- 使用类权重调整,输出值非真实概率,仅用于风险排序。
  • 处理类别不平衡措施及评价指标选择 [page::36][page::37][page::38]





- 采用损失重加权结合SMOTE过采样缓解类别不平衡。
- 使用AUC与PR曲线综合评估模型,避免因类不平衡带来的单一指标误导。

深度阅读

金融研究报告详尽分析报告


报告标题:Machine and Deep Learning for Credit Scoring: A compliant approach
作者:Abdollah RIDA
发布日期:2019年7月2日
主题:基于机器学习与深度学习方法的信用评分模型开发,聚焦合规性及提升银行信贷风险管理。

---

一、元数据与概览



本报告由Abdollah RIDA撰写,围绕机器学习(尤其是梯度提升树模型及XGBoost)在银行信贷评分领域的应用展开,重点在于实现模型在强监管背景下(如BASEL 2、3及美联储和欧洲央行相关指引)合规使用的可能性和方法。报告主要通过与某银行(BANK A)现有评分模型的对比,展示机器学习模型在信贷违约识别、性能提升及模型解释性方面的优势。同时引入Shapley值方法解释模型输出,彰显其"黑盒"外观下的可解释性。报告依章节系统阐述模型理论框架、开发流程、性能测试、模型输出解释及局限。

核心信息包括:
  • 使用XGBoost构建信用评分模型,取得较BANK A传统模型显著更优的KS值和AUC表现;

- 采用Shapley值确保模型符合监管对解释性的要求;
  • 提供完整模型开发流程及性能评估,确保稳健性与合规性。


---

二、逐节深度解读



2.1 封面信息和目录(页0-6)



报告涵盖模型理论与框架(第2章)、模型规格及训练(第3章)、模型验证与性能评定(第4章)、模型输出与解释(第5章)及附录(数学证明、算法、样本不平衡处理等),结构严谨系统。

---

2.2 摘要(第8页)



摘要明确指出:
  • 金融机构重视信贷风险管理,机器学习深度学习技术近年在此领域展现潜力,然而传统合规环境中,其运用尚未成熟;

- 本文尝试突破传统监管限制,在确保符合BASEL 2/3框架及美联储、欧洲央行监管要求的基础上,使用XGBoost提升汽车贷款申请评分准确性;
  • 利用Shapley值增强模型可解释性,满足监管披露要求,并取得优于目标银行模型的性能提升。


---

2.3 引言(第10页)


  • 论文背景基于美国次贷和欧洲主权债务危机,强调信用风险管理重要性;

- 传统统计模型(如逻辑回归)因局限于线性关系难以捕捉复杂非线性风险,浅层模型(SVM、单隐层MLP)同样在实际复杂应用中表现有限;
  • 梯度提升技术(特别XGBoost)因其速度快、处理缺失值能力强、非线性拟合能力优等优点被选用;

- 报告指出这或为首个深入基于真实银行数据使用XGBoost应用于企业和零售信贷评分的系统研究。

---

2.4 模型理论框架及数学基础(第12-17页)



2.4.1 分类问题形式化(12-14页)

  • 明确定义分类器目标:预测借款人是否违约;采用贝叶斯分类器理论,证明最佳分类器为条件概率\(\eta(x)=\mathbb{E}[Y|X]\)的判别函数;

- 由于实际模型空间有限,采用经验风险最小化,且使用Hoeffding不等式证明经验风险的置信界限,为后续交叉验证提供理论基础;
  • 交叉验证(k折)用于防止过拟合,根据训练集和验证集误差对调参;

- 类别不平衡问题严重影响模型学习,详情构建加权损失函数以校正训练和测试期类别分布差异,防止模型偏向多数类。

2.4.2 预测模型简介(14-17页)


  • 介绍CART决策树:通过划分特征空间、赋固定值叶节点进行分类;单树强度有限,故采用集成学习;

- Boosting方法:序列训练弱学习器(单层小树、树桩),依次纠正前一步误差,最终模型为弱学习器之线性组合;
  • 具体引入梯度提升(Gradient Boosting)算法,将梯度下降理论植入Boosting,迭代拟合负梯度残差,实现优化;

- XGBoost进一步优化:并行计算,加速训练,加入正则化项\(\Omega\)控制复杂度,防止过拟合。

模型训练时,采用了AUROC和Log-Loss作为训练、验证指标,利用\(F\beta\)评分统计确定调参,其中精度和召回比重可调。

---

2.5 模型规格与数据处理(第18-23页)


  • 数据流水线从清洗、工程、转换到特征降维,流程科学规范,实为信用评分模型标配;

- 目标变量定义为贷款发放后18个月内60天逾期或更差情况,二分类标记;
  • 使用Light preprocessing,XGBoost本身自动处理缺失,无需补值;

- 离散变量采用WOE编码,方便呈现好坏比率分别,满足信用评分对变量解释需求;
  • 特征筛选谨慎剔除敏感变量(避免公平信用法案违规),利用XGBoost的特征重要性与Shapley值进行变量降维;

- 编程环境基于Python 3.7,主要依赖numpy、pandas、scikit-learn、xgboost、categorical-encoders等;
  • 模型初步设计尝试直接输出违约概率,但分隔能力不佳,渐进探索调整参数,尝试使用原始的13个信用局变量作为约束,既证明算法强度,也兼顾业务需求。


图3.2解析

  • 左图为训练与交叉验证学习曲线,曲线平滑且无显著过拟合,指示模型稳定;

- 右图校准曲线显示较高概率区间模型预测较可信。

图3.3—3.5

  • KS统计值0.46表明模型具有一定区分能力;

- 混淆矩阵(阈值50%)显示很多混判,整体类别分隔弱;
  • ROC和PR曲线均表明空有算法效果,但缺显著信息支持类别区分。


---

2.6 模型最终参数配置(第23页)



参数设置如:learning
rate=0.1,maxdepth=4,gamma=12(有效避免过拟合),scalepos_weight=大约0.021(对应类别不平衡),正则化系数alpha=0和lambda=1(L1、L2正则),subsample=0.8等,体现合理保守策略。
详细表述了这些超参意义,显示模型兼顾拟合与泛化能力。

---

2.7 模型表现与验证(第24-26页)



4.1 总体性能

  • 与BANK A模型对比,KS指标大幅提升(44.91 vs 41.31),AUC提升0.80 vs 0.77,表明新模型在训练和时间外样本均有较好区分能力;

- PR值提升显著,尤其是时间外样本(0.093 vs 0.06),显示模型提高了正样本检出率和精确率;
  • 学习曲线显示训练过程稳定,无过拟合迹象,但因类别不平衡,概率可信度需调整。


4.2 时间外样本测试

  • KS曲线强化了模型区分度优势,分数分布显示模型对违约与非违约区别明显;

- ROC和PR曲线特别强调在缺乏更多输入特征时分类复杂度,模型仍稳健优异。

---

2.8 模型输出与解释(第26-30页)



Shapley值理论和应用

  • 投入大量篇幅介绍Shapley值(合作博弈理论)作为唯一满足局部准确性、缺失性、连续性条件的加性特征归因方法;

- Shapley值使得复杂模型输出逐特征分解,利于模型透明度,缓解"黑盒"顾虑。

图5.1-5.4分析

  • 5.1总结图显示特征重要性和正负影响分布,颜色由高低值映射为风险评估贡献;

- 5.2依赖图揭示变量间交互影响,横坐标变量变动富含信息,纵向散点分布显示交互喷发效应;
  • 5.3及5.4力导向图针对某观测分别展现高低信用评分缘由,直观显示关键特征如何推动模型输出偏离基线。


Swap Set Analysis

  • 表5.1清晰展示新模型在前20%风险客户样本中多检测到坏账,且好客户整体损失极小,效用明显。


---

2.9 模型开发流程与局限(第30页)



流程简图(5.5图)

  • 明确列出从数据准备、编码、重加权、训练、内外验证到性能总结,环环相扣。


关键假设

  • 模型专为汽车贷款发放渠道设计,评分只针对FICO 8 Auto分数在660以上群体;

- 类别重加权导致模型不输出真实概率,仅用于排序;
  • 缺失数据处理机制不会额外提供非"missingness"作用;

- 不能应用于账户管理阶段或其他信贷类型。

---

2.10 附录(第34-38页)



数学证明

  • 重现Hoeffding不等式导出经验误差界限,为模型误差SI解释提供坚实基础。

- 详细算法框架(前向分阶段建模、梯度提升过程)。

类别不平衡详解

  • 说明极度不平衡导致模型偏向多数类,示意图表辅助理解决策树受影响的分支;

- 介绍SMOTE过采样法,解决多数类别数据过多导致模型难度,优劣详述;
  • 表示仅依AUC评估模型不足,PR曲线须结合参考以全面评价模型预测性能。


---

三、图表深度解读



| 图表页码 | 图表名称/内容摘要 | 详细解读 | 论点联系 |
|--------|-----------------------------------------------|--------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------|
| 15 | 图2.1、2.2 CART与XGBoost树示意图 | 直观展示CART树分类逻辑及XGBoost多树集成得分机制,阐述弱学习器及分支得分计算方法 | 解释基础模型结构,有助于理解后续模型设计步骤和集成优化原理 |
| 16 | 图2.3 Boosting过程示意 | 展示Boosting如何在迭代过程中调整样本权重并叠加模型,实现每步针对困难样本改进 | 体现模型训练的动态调整机制,支撑降低误差的理论基础 |
| 18 | 图3.1 数据预处理流水线 | 标准化数据清洗、特征工程及降维步骤,可视化流程清晰呈现 | 说明后续准确性依赖数据处理严谨性,为模型奠基 |
| 20 | 图3.2 学习曲线与校准曲线 | 模型准确率随训练样本增多平稳上升,曲线紧密,且校准曲线接近理想,证明训练稳定且概率输出可靠 | 支撑可信赖的训练过程验证,同时展示校准优劣—概率可直接解释 |
| 20 | 图3.3 KS统计图 | 显示出时间外样本中不同类别累积分布差异,KS达0.461,说明模型对正负样本分布区分能力较强 | 战略性性能指标,衡量模型区分违约能力,直接反映预测有效性 |
| 21 | 图3.4 混淆矩阵与分数分布 | 混淆矩阵表明采用50%阈值误判较多,分布图表示评分重叠较大,类别尚未明显分离 | 阐释阈值设定对分类准确性影响,暗示需进一步调优区别能力 |
| 21 | 图3.5 ROC曲线与PR曲线 | ROC两类class均为0.81,PR显示预测精度与召回有待提升,曲线凸显小多数类识别难度 | 抽象性能评估结合业务实际召回需求说明算法效果 |
| 22 | 图3.6 KS统计与图3.7 分数对比图(自身vsBANK A) | KS上升到41.8;分数分布左图比BANK A右图重叠更少,表明模型分离度提升 | 表明优化算法在固定特征集下仍有较好表现,证明集成方法优势 |
| 22 | 图3.8 ROC及PR(原始13变量) | ROC下降至0.78,辅助说明局限于变量选集,PR曲线表现波动较大 | 同时验证变量限制对性能的潜在削弱,亦体现算法潜力 |
| 23 | 图3.9 最终模型参数摘要 | 明确参数数值及其意义,展现模型设计局限性与泛化能力平衡 | 参数配置基础,确保最佳模型表现,指导复制应用 |
| 24 | 图4.1 最终模型学习曲线和校准曲线 | 显示训练与交叉验证一致,校准图稍有偏差,提示预测概率需重新校准 | 涵盖训练稳定性与实际应用概率解释必要性 |
| 25 | 图4.2 KS统计与分数分布(时间外) | KS指标44.89,性能优于原始模型;分数分布显示风险识别效果明显 | 实际时间外样本验证,为模型商业应用可信度加分 |
| 25 | 图4.3 ROC及PR(时间外) | ROC与PR图表明在有限特征条件下模型区分仍不错,PR曲线下降显示精度受限制 | 结合信贷业务重点,提高模型理解及风险控制准确性 |
| 28 | 图5.1 Shapley值总结图 | 各特征对模型输出贡献大小和方向分布,红色为高风险影响,蓝色为低风险影响,辅助判断关键风险因素 | 解释模型决策依据,解决监管“黑盒”质疑 |
| 28 | 图5.2 Shapley依赖图 | 体现合约状态与经销商状态交互影响,点散反映特征联合效应 | 加深模型特征交互结构理解 |
| 29 | 图5.3、5.4 Shapley力导向图(高分与低分案例) | 展示单客户层面具体驱动风险评级特征,贡献值将结果从基线推向最终评分 | 细粒度解释,辅助业务决策及客户沟通 |
| 29 | 表5.1 Swap set分析 | 显示新模型能识别更多坏账客户,且良好客户损失较少,实现更优风险区分 | 直观量化模型效用,验证预测准确性的商业价值 |
| 30 | 图5.5 流程图 | 重点步骤分布,涵盖数据清洗、样本拆分、编码、训练及验证 | 对模型开发过程结构化回顾,辅助后续复制与监督 |
| 36-38 | 附录B,类别不平衡图示及SMOTE原理与效果对比 | 说明类别失衡对树模型的影响,SMOTE思路及逻辑回归应用效果,PR曲线补充AUC评估,突出不平衡问题的严重性 | 阐明样本重平衡重要性,为本报告损失重加权选择提供依据 |

---

四、估值分析



本报告侧重模型构建与评估,不涉及企业估值或股价目标,基于信用定量模型研发与监管合规视角,核心在性能指标(KS,AUC,PR)及模型可解释性技术应用。

---

五、风险因素评估



报告未专门列出信贷业务风险描述,但隐含风险与限制主要包括:
  • 信贷数据特征限制导致分离能力受限,需要充分数据信息保证性能;

- 类别极度不平衡影响概率估计与模型置信,需谨慎概率解释或额外校准;
  • 模型针对特定贷款类型和客群限制明显,不适用其他信贷业务;

- 合规风险集中在机器学习模型的解释性与透明度,Shapley值虽有效缓解但实际应用仍需监管认可。

缓解措施包括模型重加权、严格交叉验证及模型解释增加透明度。

---

六、批判性视角与细微差别


  • 报告充分满足当前监管合规需求,合理平衡性能与可解释性;

- 对类别不平衡问题认识清晰,但仍对实际概率输出影响较大,概率解读须结合业务理解,避免误用;
  • 模型对部分特征(如外部信用评分等)刻意剔除,增强公平性但可能牺牲部分性能;

- 变量选择过程依赖Shapley值,增加可解释性,但可能忽略部分非线性互动;
  • 模型参数设计普遍保守,效果稳定但在更复杂特征下潜力未充分释放;

- 训练与测试数据均限于特定时间窗口和贷款类型,泛化能力与周期性验证空间仍需后续拓展。

---

七、结论性综合



本报告系统展现了基于梯度提升树(XGBoost)的信用评分模型开发及其在严格监管环境下的合规应用,强调了模型性能和可解释性的双重提升。

核心结论:
  • 采用XGBoost模型显著优于传统银行评分模型(KS值44.91 vs 41.31,AUC 0.80 vs 0.77),在自动贷款领域表现优异且稳健;

- 通过合理的类别损失重加权策略,有效缓解了信贷数据中严重类别不平衡对模型训练的负面影响;
  • 无需填充缺失值,利用XGBoost固有处理缺失能力简化数据预处理过程;

- 结合Shapley值技术增强模型透明度与解释能力,满足监管对模型“非黑盒”性质的要求;
  • 模型仅支持针对FICO 8 Auto大于660客群的贷款发放评分,且只适合贷款审批前的风险排序,不能用于真实概率估计及贷后管理环节;

- 训练与验证过程中采用严格交叉验证及时间外验证,确保模型泛化能力;
  • 模型开发流程规范清晰,具有较强可复制性和实用价值。


数据与图表洞见:
  • 训练及交叉验证曲线(图3.2,图4.1)表明模型无过拟合且稳定;

- KS和分数分布图体现模型准确区分正负样本能力;
  • ROC与PR曲线提示该类业务中,单靠传统指标不足以全面衡量模型性能,需结合PR指标评价模型对少数类检测能力;

- Shapley值总结与依赖图表揭示了关键风险驱动变量及其交互特征,力导向图明晰个案评分详情,提升业务理解及决策透明度。

综上,报告成功展示了机器学习特别是梯度提升树在信用评分领域的有效应用路径,同时兼顾监管合规需求并强化模型可解释性,为银行未来信贷风险管理提供了范例和改进方向[page::0, 2, 8, 10, 12, 15, 20, 22, 23, 24, 26, 28, 30, 36, 38]。

报告