Detecting Anomalous Events in Object-centric Business Processes via Graph Neural Networks

创建于 2025-05-12T15:52:32.117177+08:00 更新于 2025-05-21T11:12:33.514499+08:00

摘要

本报告提出一种基于图神经网络的无监督异常检测框架，针对面向对象的业务流程日志，通过构建事件依赖图并采用图卷积自编码器，显著提升了活动类型及属性异常检测效果，克服了传统单一案例方法的缺陷，但在时间序异常检测上仍存在挑战 [page::0][page::1][page::4][page::9]。

速读内容

研究背景与动机 [page::0][page::1]

- 传统流程挖掘假设事件日志为单一案例序列，存在收敛、发散及缺失等问题，容易引入人为异常。
- 面向对象的流程挖掘支持事件关联多个不同类型对象，流程实例表现为图结构，更真实地反映实际业务流程。

方法框架概述 [page::4]

- 先重构面向对象的流程实例为单个（不连通）图，节点为事件，边为事件间的时间依赖。
- 利用图卷积自编码器(GCNAE)对节点属性进行编码-解码，节点重构误差即异常分数。
- 通过基于四分位距（IQR）启发式算法自动设定异常阈值，无需依赖污染率或先验模型。

数据预处理与特征编码 [page::5][page::6]

- 通过ocpa库重构流程实例，将多个不同对象的事件轨迹合并形成图。
- 使用二进制邻接矩阵A表示事件间依赖关系，节点特征矩阵X包含活动类型与事件属性，一热编码处理分类属性。

GCNAE架构细节 [page::6][page::7]

- 编码器为双层图卷积网络，应用ReLU激活，规范化邻接矩阵加入自环，学习节点潜空间表示Z。
- 解码器由第三层GCN组成，将Z映射回输入特征空间重构节点属性。
- 训练目标是最小化输入与重构特征间平均均方误差，异常得分为平均重构误差。

异常注入与实验设计 [page::8][page::9]

- 人工注入三种异常类型：属性交换、时间戳偏移和随机活动，占比约10%。
- 使用BPIC 2017对象日志和合成订单管理流程两个数据集，涵盖不同对象类型及事件属性维度。

性能对比与结果分析 [page::9]

| 模型 | 平均F1分数 | 备注 |
|--------|------------------|-----------------------------|
| GCNAE | 优于AE和LSTMAE | 具备图结构学习优势 |
| AE | 内存溢出（DS2集）| 长序列编码导致资源瓶颈 |
| LSTMAE | 次优 | 无法充分捕获事件间结构依赖 |
- GCNAE对属性与活动类型异常检测效果良好，但对时间戳偏移异常检测能力不足，推测因邻域聚合机制对微小时间扰动敏感度低。

量化异常检测策略总结 [page::4][page::9]

- 创新点：利用GCNAE对事件图数据进行节点重构误差计算，无需先验样本标签或污染率假设。
- 策略包括构建事件图、GCN编码解码、基于IQR确定异常阈值三大步骤。
- 优势：更贴合对象中心流程数据，避免单案例扁平化引入的伪异常。
- 局限与未来方向：需进一步研究适合捕捉时间顺序异常的GNN变体及扩展至异常流程实例检测。

深度阅读

金融研究报告详尽分析报告

---

一、元数据与概览（引言与报告概览）

报告标题：Detecting Anomalous Events in Object-centric Business Processes via Graph Neural Networks
作者：Alessandro Niro, Michael Werner
发布机构：University of Amsterdam（阿姆斯特丹大学）
发布日期：不详（仅从文中推断为近期研究）
研究主题：基于图神经网络（Graph Neural Networks, GNN）在面向多对象业务流程中的异常事件检测方法研究

核心论点及贡献：
报告旨在解决传统业务流程异常检测面临的局限，即传统方法依赖“扁平化”的单一案件标识顺序事件日志，往往丢失关联多个对象的复杂业务流程信息。论文提出一种创新性方法，基于对象中心（object-centric）流程挖掘视角，结合图神经网络（具体采用图卷积自动编码器GCNAE架构），将事件日志重构成图结构，从而能够更有效地识别异于正常业务流程的异常事件。
该方法免于依赖先验流程模型、污染率信息或干净数据集，具备较强的实际工程应用潜力。实验结果表明，该模型能较好地检测活动类型及属性异常，然而对时间序列异常（事件顺序偏差）识别效果有限，有待进一步研究。

---

二、逐节深度解读

2.1 报告背景与问题定位（引言与第一章）

业务流程挖掘着眼于通过分析执行轨迹数据提升流程效率、防止错误与欺诈。依赖事件日志这一数据载体。

- 传统方法将事件日志“扁平化”，每个事件绑定单一案件ID，从而简化其为严格顺序的事件序列，存在信息丢失、事件重复缺失与顺序紊乱等问题（收敛、发散和缺失）[page::0,1]。

许多真实世界流程往往有多重关联对象，事件绑定多个对象ID，形成复杂的图结构。

- 对象中心流程挖掘（object-centric process mining）重新定义事件与多对象间的多对多关系，使事件日志更符实情，且允许构建基于图的流程实例表示[page::1,2]。

本稿聚焦事件级别的异常检测（检测某事件是否异常），不同于传统大多关注整个流程实例（案例）异常检测。理由在于，面向对象的流程实例规模可能极大，往往无法有效对实例整体异常做出判断[page::2]。

- 任务定义为无监督的事件异常检测，即通过学习无标签的事件日志数据，明确区分异常事件与正常事件[page::2]。

2.2 相关研究综述

传统异常检测主要依赖单一案件流程模型的对比匹配（校验拟合度、精确度等）及基于距离或重建误差的机器学习方法[page::0,3]。

- 历史研究多集中于顺序事件流异常检测，鲜少处理多对象间的复杂交互异常。

过程异常分级视角包括事件级别异常和流程实例级别异常；异常本质有点异常（point anomalies）、上下文异常和集体异常三种类别[page::3]。

- 图神经网络（GNN）作为处理图结构数据的深度学习模型，在异常检测（节点异常检测）中有成熟应用，但结合对象中心流程挖掘尚属新兴领域。已有工作主要采用GNN解决传统流程分析任务如预测和发现，尚无针对多对象流程日志的图神经异常检测研究[page::3,4]。

2.3 方法论介绍（第四章）

2.3.1 整体框架

输入为对象中心事件日志，先通过ocpa等专用工具将日志重构成基于事件节点和事件间依赖的图结构（子图为流程实例）。所有子图合并形成不连通的整体图，避免补齐填充的烦恼。

- 利用图卷积自动编码器（GCNAE）提取图节点（事件）的嵌入表示，编码器学习节点属性局部结构表示，解码器重构节点属性，训练目标为最小化原始与重构特征间的均方误差。

重构误差作为异常得分，越大代表事件越可能异常。引入基于四分位距（Interquartile Range, IQR）的无监督阈值设定机制，实现自动化异常分类，无需先验污染率或阈值人工设定[page::4,6,7]。

2.3.2 关键概念与定义

详述对象中心事件日志、对象类型、活动、时间戳、事件属性映射关系等基本定义，正式将对象中心日志建模为带属性的有向图[page::2]。

- 图的邻接矩阵$\mathbf{A}$及特征矩阵$\mathbf{X}$构成模型输入，$\mathbf{A}$体现事件时间依赖关系，$\mathbf{X}$由事件活动类型及属性组成，分类变量采用One-hot编码，数值变量保留原始值[page::5,6]。

GCNAE编码器由两个GCN层组成，使用ReLU激活，结合对称归一化邻接矩阵$\tilde{\mathbf{A}}$提升训练稳定性。解码器采用单层GCN恢复节点特征。损失函数为所有节点特征的均方误差均值，进而计算事件异常分[page::6]。

- IQR阈值策略依据异常分分布设阈，通常设置$k=1.5$，使得异常事件定义为异常分超过 $Q_3 + 1.5 \cdot IQR$ 的事件[page::7]。

2.4 实验设计与评估（第五章）

2.4.1 数据集

1）真实数据：对象中心的BPIC 2017事件日志，涵盖荷兰金融机构贷款申请流程，约40万事件，涵盖两个对象类型和13个属性。

- 2）合成数据：DSQ合成订单管理流程，具备三个对象类型及4个属性，结构复杂、对象交织度高[page::7]。

2.4.2 异常注入方法

属性交换（Attributes Swap）：随机替换某事件属性为实例内距离最远的另一事件的属性，制造属性不一致性。

- 时间戳偏移（Timestamp Shift）：事件时间戳在实例内时间窗口内偏移±5%，扰乱事件顺序。

随机活动（Random Activities）：插入非原有流程活动事件，保持属性来源一致[page::8]。

2.4.3 对比基线

将对象中心流程简单“扁平化”为单个案例事件序列，依例采用传统自动编码器（AE）和LSTM自动编码器（LSTMAE）作为比较模型。

- 注意AE模型因长序列导致DSQ数据集出现内存溢出问题[page::8]。

2.4.4 评价结果

GCNAE整体表现优于AE和LSTMAE，优势来自基于图的事件及邻域特征聚合能力。

- 依据F1分数和Recall@10指标，GCNAE在检测属性交换和随机活动异常时表现均优，时间戳偏移异常检测能力较弱。

对时间戳变动异常检测力不足，推测为GCN聚合邻域节点信息时对时间序列微小扰动不敏感[page::9]。

---

三、图表深度解读

3.1 图1：整体方法流程图

展示了从输入对象中心事件日志经过流程实例重构、图结构编码，到GCNAE训练并计算异常分数，最终通过IQR阈值法进行自动标记全流程。

- 图示清晰体现了模型端到端处理链，同时强调了无需先验训练集标签或污染率信息。图中节点颜色与流程实例的子图对应显示了过程实例间的不连通性。该图为理解方法数据流和模型架构的核心视觉辅助[page::4]。

3.2 图2：示例事件日志及流程结构重构

图示了基于示例日志（Table 1，未全文展示），如何通过事件间时间依赖进行流程实例（P1和P2）重构，形成两个之间不连通的子图。

- 每个圆圈代表事件，箭头表示时间依赖顺序，体现多对象事件桥接典型特征，如事件e4和e7桥接多条路径[page::5]。

该示例图突出了方法数据预处理对捕捉对象间复杂交互及所有相关事件依赖关系的关键处理手段。

3.3 表1：示例对象中心日志结构

虽未完整展现，此表通过两种对象类型（A、B）及其关联事件示例，说明事件-对象多对多关系。

- 支撑后续重构图结构理论基础。详见定义部分对应公式说明事件与对象、时间、属性等映射关系[page::5]。

3.4 表2：数据集统计汇总

汇总两个数据集（BPIC 2017对象中心版及DSQ合成数据）基本统计量，包括事件总数、属性数量及注入异常比例（约10%）。

- 统计重构后流程实例大小和复杂性，用于评估模型在不同数据复杂度场景下的表现。

这为后续性能评价对比提供了背景基准，有助理解模型扩展性及潜在计算瓶颈[page::7]。

3.5 表3：模型性能对比

量化比较GCNAE与AE、LSTMAE在指标（F1分数、Precision、Recall等）上的表现，均数±标准差形式呈现。

- GCNAE均显著优于基线，尤其在属性及活动类别异常检测上表现突出。

AE模型在大规模数据出现OOM，指示其对长序列数据的适应性差。数据驱动GCNAE异于序列模型的优势更明显[page::8,9]。

3.6 表4：不同异常类型Recall@10

具体细分三种异常类型：属性交换、随机活动、时间戳偏移的召回表现。

- GCNAE对属性交换和随机活动异常的召回高，时间戳偏移明显下降，支持方法对时间序列异常的识别能力仍待强化论断。

体现出图卷积网络的局限性，即邻域信息聚合在捕获时间微小扰动上的不足[page::9]。

---

四、估值分析（无相关内容）

本报告为技术研究论文，重点为算法设计与验证，不涉及企业估值、财务预测或投资评级，因此不包含估值分析。

---

五、风险因素评估

报告中隐含的风险主要涉及以下方面：

时间序列异常检测能力不足

由于GCNAE基于邻域信息聚合，可能对时间顺序异常（时间戳轻微偏移）不敏感，导致部分异常漏检，对实际异常识别构成风险。对此，作者建议未来研究探索更适合学习时间依赖结构的GNN架构。

事件日志数据复杂性与规模挑战

大规模多对象事件日志的高维图结构可能带来计算瓶颈与模型过拟合风险，尤其是节点数极大时。作者指出传统AE模型已因内存问题而失败，GCNAE虽有优势，但可能仍面临扩展性风险。

注入异常与真实异常的分布偏差

评测基于合成注入异常模拟，真实事件日志中异常多样且标签匮乏，模型实际表现可能偏离实验结果。作者承认真实数据未完全标注真实异常，影响结果可靠性。

阈值设定的敏感性

虽采用基于IQR的自动阈值，但系数$k$的选取仍具经验性，可能导致误检或漏检率变化。无先验信息条件下的阈值自适应仍需谨慎验证。

---

六、批判性视角与细微差别

方法创新与泛化验证不足

该报告贡献了首次将GCNAE应用于对象中心流程日志异常检测的新颖方案，但实验仅覆盖两个数据集（一现实、一合成），缺乏跨域或大规模的泛化验证，可能影响实际工业应用的可信度。

异常类型覆盖有限，时间依赖敏感性不足

当前只涵盖三类典型异常，真实业务流程中异常类型远更复杂。时间序列异常检测弱点是方法明显限制，指出未来研究方向，但报告未提供该方向的具体实施方案或改进尝试。

无监督假设适用性存疑

虽强调无监督学习避免需先验标签限制，实际场景中无监督异常检测常面临“定义模糊”和“异常少”的双重困境。模型如何有效区分稀有但非异常的罕见事件的能力未充分讨论。

数据预处理依赖外部库

重构步骤依赖ocpa库实现，增加方法实现门槛，依赖第三方工具稳定性及兼容性，报告未详述误差传递与重构过程对异常检测影响。

部分定义和数学符号排版略显混乱

数学定义区段文字与公式间插入符号及行距不够清晰，可能影响阅读体验和专业传播效果（属于排版非实质缺陷）。

---

七、结论性综合

本报告系统提出了基于图卷积自动编码器的对象中心业务流程事件异常检测新方法，创新性突破了传统面向单一案件顺序日志的瓶颈，实现了多对象多关系的流程图结构建模。该方法在无监督条件下通过最小化节点特征重构误差完成异常评分，辅以IQR机制自动阈值划分，具备明显应用潜力。

实验从两个数据集（一个真实银行贷款流程，一个合成订单管理流程）入手，注入三类代表性异常，系统对比传统扁平序列AE与LSTM模型。结果显示GCNAE在检测活动类别及属性误差异常上拥有显著优势，但对时间戳偏移异常检测能力不足，导致未来研究需深入时间序列敏感的GNN结构改进。

报告中的关键图表如流程架构图（图1）直观揭示了处理全流程，事件依赖关系图（图2）示例说明了流程实例如何基于多对象事件构建，结合数学定义严谨阐释了输入数据与GCNAE模型结构，这为后续学术及工业界者理解和扩展该方法奠定坚实基础。

风险方面，时间序列异常检测能力不足及方法在面对极大规模数据时的适应性是亟需解决的技术难题。另外，当前评估基于注入异常的合成环境，未来需更多真实有标注数据验证效果的稳定性。

整体而言，报告提出了一种前沿且实用的无监督异常检测技术框架，准确指出了目前方法的局限和未来改善方向。鉴于其不依赖先验流程模型和污染率信息的优势，具备成为对象中心流程挖掘异常监测重要工具的潜力。

---

参考文献

报告提供了详尽的文献综述及参考，其中涵盖对象中心流程挖掘[1,18]、传统流程异常检测方法[9,10,12,26]、图神经网络原理与应用[22,31,33]等，有力支撑了学术严谨性和方法创新性[page::10]。

---

总体评价

此篇报告以专业的学术语言和规范的逻辑结构，全面论述了面向对象中心业务流程的图神经网络异常检测方法，从理论建模、算法设计、数据准备、实验验证及结果分析均有深入阐述。分析了模型的优势与短板，提出未来研究方向，具备较高的学术价值和潜在工业应用推广意义。