`

Towards Financially Inclusive Credit Products Through Financial Time Series Clustering

创建于 更新于

摘要

本报告提出了一种基于深度表示学习的时间序列聚类算法,以解决传统信用评分不足以支持金融包容性信贷产品的问题。通过对金融消费者交易数据的聚类,模型能够识别具有相似金融行为的用户群体,实现个性化金融产品定制。经系统性性能比较,基于CNN架构的自编码器结合经典重构损失和DTC聚类损失的FTHC算法,在聚类质量指标(轮廓系数和Davies-Bouldin指数)上优于现有方法,有效提升模型稳定性和聚类表现,为金融机构提供面向边缘群体的创新信用产品设计思路[page::0][page::6]

速读内容

  • 金融包容性促进经济增长,分群客户策略基于银行交易数据,用于细分客户群以支持个性化服务[page::0]

- 时间序列聚类的挑战在于缺乏标注,故采用无监督深度表示学习和自编码器架构提升聚类表现;涉及FCNN、CNN、LSTM和DTC四种自动编码器架构选择[page::1][page::2]
  • 聚类质量评估指标采用轮廓系数(SC)和Davies-Bouldin指数(DBI),高SC与低DBI代表优良聚类[page::1]

- 聚类损失结合经典重构损失进行训练,利用Student’s t分布进行归一化,优化聚类质量,距离度量采用欧氏距离和复杂性不变距离(CID)[page::2][page::3]
  • 兼容性限制:DTC架构不适用于变分自编码器损失且LSTM/DTC与层次重构损失不兼容[page::3][page::4]

- 训练中发现聚类损失会导致不稳定表现,若聚类优化阶段学习率不设低于预训练阶段,聚类结果容易陷入退化(所有样本聚于一簇),合理设置聚类学习率为预训练学习率的十分之一可改善稳定性

[page::4][page::5]
  • 多项式合成数据上测试显示学习率配置对模型稳定重要性明显,保证聚类阶段学习率低于预训练阶段有助聚类分布保持分散[page::5]

- 聚类性能分析:
- CNN架构表现最佳,LSTM次之,FCNN和DTC表现较差

- 经典重构损失(Equation 1)优于扩展层级重构和变分自编码器损失

- 移除聚类损失函数能获得较高的平均性能,且学习率调整使得带聚类损失的算法性能提升明显

- 以欧氏距离作为聚类层距离度量优于复杂性不变距离(CID)

- PCA和不降维表现相似,UMAP使用后聚类性能略有下降
  • 提出Financial Transaction History Clustering (FTHC)算法,结合CNN(基于ResNet)自编码器、经典重构损失预训练以及使用欧氏距离的DTC聚类损失训练,显著优于多种现有时间序列聚类方法


- FTHC在轮廓系数达0.64,远优于LSTM(0.48)、FCNN(0.50)、DTC(0.36)、VAE(0.07)
- Davies-Bouldin指数也表现最佳
  • 研究限于单变量交易时间序列,未来研究可进一步开发易解释聚类度量,增强聚类结果的业务解读与应用[page::5][page::6]

深度阅读

详尽分析报告:《Towards Financially Inclusive Credit Products Through Financial Time Series Clustering》



---

一、元数据与概览


  • 报告标题:Towards Financially Inclusive Credit Products Through Financial Time Series Clustering

- 作者:Tristan Bester,Benjamin Rosman
  • 机构:University of the Witwatersrand, School of Computer Science and Applied Mathematics, Johannesburg, South Africa

- 联系方式:tristanbester@gmail.com, benjamin.rosman1@wits.ac.za
  • 主题:该报告聚焦于金融时间序列(消费者交易数据)的聚类技术,旨在推动金融包容性,帮助金融机构更好地理解消费者的金融行为,避免传统限制性信用评分方法,支持包容性的信用、储蓄及保险产品开发。


报告的核心论点是:通过基于深度学习的时间序列聚类算法刻画客户的金融行为模式,金融机构能够更精准地细分客户,进而量身定制产品,提升包容性和盈利能力。该文章提出了一种新颖的时间序列聚类算法(Financial Transaction History Clustering,FTHC),并通过与现有方法的对比验证其优越性。报告的最终愿景是利用数据驱动的无监督学习技术,突破传统信用评分的束缚,促进金融服务的普惠发展 [page::0] [page::1] [page::6]。

---

二、逐章节深度解读



2.1 摘要与引言(第0页)


  • 关键论点

- 金融包容性通过确保个体获得符合需求的金融产品促进经济增长。
- 传统信用评分限制了包容性,而基于消费交易数据的客户划分能成为替代路径。
- 面临的主要问题是缺少带标签的客户数据,导致监督学习难以开展,聚类成为可行方案。
- 本文提出了一个针对金融时间序列的聚类算法,可划分客户群体,用于后续个性化金融产品设计。
  • 推理依据

- 引用了相关文献支持金融包容性带来的社会经济效益(Moin和Ahmed 2012,Alshehadeh和AlKhawaja 2022)。
- 描述了客户细分在服务营销中的重要性(Ansari等,2016)。
- 说明了现代金融机构生成了大量的消费交易数据,但缺少领域专家注释标签限制了监督学习方法的应用,因此采用无监督聚类方法更为切实可行。
  • 论述意义

- 解决了金融机构面临的“理解消费者行为及风险”的核心痛点。
- 强调新的聚类方法不仅有助于理解客户,还能支持以风险为导向的产品定制,推动包容性金融的发展。

2.2 背景 - 聚类与深度表示学习(第0-3页)


  • 聚类介绍

- 介绍聚类作为无监督学习的任务,强调由于无标签,评估聚类质量困难,依赖诸如Silhouette系数(SC)与Davies-Bouldin指数(DBI)等代理指标。
- 解析时间序列数据的一般聚类难点,传统距离度量未必适用,促使专门时间序列聚类算法诞生。
  • 神经网络架构

- 介绍了深度学习中用于时间序列的三种主要层结构:
- 全连接层(FCNN)
- 卷积层(CNN),强调1维卷积可捕捉时间特征
- 循环层(RNN及其变体LSTM),专为时序动态设计,解决了梯度消失问题。
  • 深度表示学习

- 旨在通过非线性编码器将原始时间序列映射到潜在空间(latent space),使聚类效果提升。
- 利用自编码器(encoder-decoder)框架,通过重构损失(如均方误差)逼近原数据,达到自监督训练目的。
- 介绍了不同类型自编码器及其训练目标:
- 传统重构损失 $\mathcal{L}R$(均方误差)
- 层级重构损失 $\mathcal{L}
{LR}$
- 变分自编码器(VAE)引入随机映射与概率模型,优化证据下界(ELBO)损失
  • 拉通聚类与表示学习

- 介绍Deep Embedded Clustering (DEC)及其时间序列版DTC,强调联合训练自编码器和聚类目标。
- 聚类通过学习聚类中心(centroids)并采用KL散度约束潜在空间聚类分布,提高同群内样本相似度与群间差异。
- 特别指出DTC采用的复杂度不变距离(CID)适用于时间序列latent space的距离计算。
  • 总结本节

- 表明深度表示学习与聚类的整合为理解复杂的时间序列数据(如消费行为)提供了技术基础。
- 自编码器设计、损失函数选择及距离函数都将影响最终聚类效果[page::1][page::2][page::3]。

2.3 方法论与组件分析(第3-6页)


  • 方法论框架

- 将深度时序聚类方法拆解为四大组件:
1. 自编码器架构:FCNN, CNN, LSTM, DTC
2. 降维方法:PCA, UMAP, 无降维
3. 预训练损失:重构损失CR, 层级CCR, VAE损失CV, 无
4. 聚类损失:基于欧氏距离(CDE), 基于CID(CDC), 无聚类损失
  • 兼容性规则

- 不同组件间存在兼容性限制,如DTC架构不适用扩展重构损失和VAE损失,详细描述见表2。
  • 数据集与实验方案

- Berka银行数据集,约5300名客户、超百万交易记录。
- 训练测试拆分各半,五次独立试验取平均。
- 评估指标使用SC和DBI。
  • 模型稳定性分析

- 发现含聚类损失法的模型产生无效聚类(如所有数据归为一簇或训练发散)的概率较高,尤其是CID及DTC结合时,高达64.7%失败率。
- 通过合成多项式时间序列实验,发现聚类阶段的学习率过高是造成不稳定的根因。
- 采用聚类阶段学习率较预训练阶段低一个数量级可显著提高模型稳定性。
  • 性能评估结果

- 消费者划分倾向于反映实际交易行为(例:固定薪酬与非规律收入分群),但仍有边界模糊。
- CNN架构表现最佳,优于LSTM、FCNN和DTC。
- 预训练损失中经典重构损失效果最佳;VAE损失表现不佳。
- 不使用聚类损失的组合平均性能更好,聚类损失易致发散,若调整学习率得当则能提升性能。
- 聚类空间距离欧氏优于CID。
- 降维方面,PCA与无降维效果相似,UMAP略差。
  • 新算法FTHC

- 结合上述优良组件,采用CNN自编码器(基于ResNet架构)、经典重构损失预训练、DTC聚类损失(欧氏距离)。
- 实验结果显著优于现有LSTM、FCNN、DTC和VAE基线模型,SC增至0.64(最高),DBI降至0.57(最低),表明聚类质量显著提升。

2.4 结论(第6页)


  • 通过系统拆分深度时序聚类算法的组件,确立了影响聚类效果的关键设计因素。

- 基于对组件性能的交叉对比,组合出性能最优的新算法FTHC。
  • FTHC在真实消费数据集上优于先前最先进模型,在无监督聚类任务中表现卓越。

- 该方法为金融机构理解客户行为,设计包容性信用产品提供了强有力的技术支持。[page::6]

---

三、图表深度解读



图1(第4页)


  • 描述:柱状图显示不同聚类损失组件下产生无效聚类的比例。

- 数据与趋势
- CID与DTC结合最不稳定,失败率64.7%。
- 欧式距离与DTC为31.1%。
- 无聚类损失仅7.5%。
  • 文本联系:验证了聚类损失带来训练不稳定性,需要调节学习率解决。

- 潜在局限性:未显示聚类数量变化对稳定性的影响。
  • Markdown图片



图2(第5页)


  • 描述:两张散点图展示不同聚类阶段学习率设定下聚类后潜在空间的分布。

- 数据与趋势
- 下图(学习率相等):潜空间表示趋同,所有点聚为一簇,代表无效聚类。
- 上图(聚类学习率低于预训练学习率0.1倍):三簇清晰分离,模型稳定收敛。
  • 文本联系:阐释学习率设定对训练稳定性与聚类质量的影响机理。

- 潜在局限性:图中仅展示二维潜空间,现实空间更高维,内涵复杂。
  • Markdown图片



图3(第5页)


  • 描述:不同自编码器架构对应的SC和DBI平均聚类性能条形图。

- 数据与趋势
- CNN最好:SC最高0.14,DBI最低2.0。
- LSTM次之。
- FCNN较差,DTC表现最差,SC为负,DBI最高,表示群聚严重不佳。
  • 文本联系:支持CNN捕捉金融时间序列特征较其他架构更有效的结论。

- Markdown图片


图4(第6页)


  • 描述:不同预训练损失函数对应的聚类性能对比。

- 数据与趋势
- 经典重构损失$\mathcal{L}_R$性能最佳(SC:0.19,DBI:1.57)。
- 层级重构损失稍差。
- VAE损失最差(SC负,DBI最大)。
  • 文本联系:确认生成式VAE损失不适合时序聚类任务。

- Markdown图片


图5(第6页)


  • 描述:不同聚类损失函数(无、DTC)对应聚类性能对比。

- 数据与趋势
- 无聚类损失性能显著高于使用DTC聚类损失。
- 反映不稳定训练导致聚类损失模型平均性能下降。
  • 文本联系:强调聚类损失需配合适当训练策略才有效。

- Markdown图片


图6(第6页)


  • 描述:聚类层距离度量(欧氏与CID)对应性能对比。

- 数据与趋势
- 欧氏距离明显优于CID,SC和DBI指标均更优。
  • 文本联系:支持选择欧氏距离作为聚类损失度量的合理性。

- Markdown图片


图7(第6页)


  • 描述:不同降维方法对聚类性能影响。

- 数据与趋势
- PCA与无降维效果基本持平。
- UMAP表现稍差。
  • 文本联系:暗示金融时间序列聚类不需降维复杂化。

- Markdown图片


图8(第6页)


  • 描述:FTHC与先前主流模型在SC和DBI指标上的性能对比。

- 数据与趋势
- FTHC最佳:SC为0.64,显著超过LSTM(0.48)、FCNN(0.50)、DTC(0.36)和VAE(0.07)。
- DBI指标对比中,FTHC最低为0.57,远优于其它方法。
  • 文本联系:验证本文提出算法FTHC的有效性和领先地位。

- Markdown图片


图9(第8页)


  • 描述:合成实验中,预训练阶段结束后的潜在空间可视化,三簇分布。

- 数据与趋势
- 三个聚类中心(红、绿、蓝)及对应样本群有明显分离。
  • 文本联系:表明预训练阶段潜在空间已较好地捕获了数据间的差异,有利于后续聚类。

- Markdown图片


---

四、估值分析



本报告不涉及具体的金融估值(定价)内容,聚焦于技术方法的研发和算法性能的比较,因此无直接估值分析。

---

五、风险因素评估


  • 模型稳定性风险

- 使用聚类损失时存在较高模型训练发散、产生无效聚类的风险,主要由聚类阶段学习率设置不当导致。
- 报告建议通过较小学习率配置缓解该风险。
  • 聚类解释风险

- 聚类结果虽然通常对应于合理的客户行为模式分类,但存在混淆或误分现象,导致个别用户分类缺乏直观可解释性。
- 报告认为未来可开发更具“人类可解释性”的性能指标进一步优化。
  • 数据与样本风险

- 使用的数据集来自特定银行和地区,样本特征可能限制模型的泛化能力,尽管通过测试集验证模型有一定泛化性,但未明言跨机构或跨国界的适应性。

报告没有就风险提供具体缓解策略以外的概率评估,但已明确针对训练阶段进行调参和实验设计以降低风险影响。[page::4][page::5]

---

六、批判性视角与细微差别


  • 报告使用的聚类评估指标为传统SC和DBI,存在其局限性:这两个指标对聚类形状和簇之间差异较敏感,但对某些复杂时间序列的业务语义解释能力不足。

- 深度聚类结构需调试众多超参数,报告中虽然建立了实验学习率启发式,但超参数调优的稳定性和泛用性仍需更多实证验证。
  • 虽然FTHC表现在标准指标上最优,但因缺乏业务端的实际应用验证,报告未直接论证该模型是否完美满足金融包容性的业务需求。

- 多处假设前提是交易行为可以有效代表风险和金融需求,实际中可能受用户隐私、数据缺失和行为多样性等影响。
  • 报告内部对DTC架构评价不高,然而DTC代表了时间序列聚类的一种先进尝试,存在架构设计和损失函数不适配的问题,提示该领域需进一步研究更协调的模型结构与损失设计。


---

七、结论性综合



本报告围绕如何利用深度时间序列聚类算法实现金融产品的包容性创新展开。核心观点是,传统基于标签的监督分类因标注数据稀缺而难以落地,转向无监督聚类可有效捕获客户交易行为模式并隐含风险。

研究首先详尽梳理了聚类质量评价指标、时间序列的特殊性及深层神经网络架构(FCNN、CNN、LSTM、DTC)及其融合自编码器表示学习的优劣。实验选用真实且丰富的Berka银行交易数据,通过系统拆解聚类算法的关键组成(架构、预训练损失、聚类损失、降维),进行了严谨的组件性能测试和组合效能评估。

实验揭示:
  • CNN架构对时间序列聚类尤为有效,优于LSTM、FCNN和DTC。

- 经典重构损失优于层级重构和VAE损失,表明简单重建目标对学习聚类潜在空间更友好。
  • 聚类损失(尤其CID+ DTC聚类层)易导致训练不稳定,需通过更低的学习率调优稳定。

- 欧氏距离比复杂的CID作为聚类度量更实用。
  • 降维在本任务中效果边际,PCA或无降维表现相近,UMAP略逊。


在此基础上,报告提出组合CNN+经典重构损失+DTC聚类损失(欧氏距离)的金融交易历史聚类模型FTHC。该模型在SC和DBI两个聚类指标上均显著超越此前先进方法,展现出更稳定优质的客户群划分能力。

报告强调该方法为金融机构理解客户多样化需求、风险特征提供了数据驱动的有效工具,助推包容性金融产品设计的落地,突破传统信用评分模型限制,为边缘客户群体接触优质金融服务创造可能。

综上,该研究不仅丰富了时间序列无监督聚类理论与方法,更以坚实的实验验证为金融技术创新实践提供指导。未来研究方向包括聚类结果的业务解释性提升、模型泛化性检验及与实际金融决策流程的深度融合。[page::0][page::1][page::3][page::4][page::5][page::6]

---

附录


  • 本报告除正文外,附带详细的网络架构参数配置、训练流程和合成数据实验,确保研究重复性及结论的稳健性。

- 例如,CNN基于ResNet结构,LSTM为双向堆叠网络,DTC融合卷积+循环结构;训练分两阶段,预训练和聚类优化,学习率配置经过实验确定。
  • 合成数据实验显示了学习率调整对聚类稳定性的直接影响,提供训练启发机制。


---

总结



本文以深度学习时间序列聚类为核心技术,系统评估了不同技术组件对消费金融交易数据聚类性能的影响,提出新算法FTHC,显著提升聚类效果,从而支持金融包容性产品创新,为金融机构洞察客户行为、风险划分和个性化服务提供实证基础和技术路径。

报告