一种可跨不同领域的异常检测通用模型UniOD介绍

天资达人 科技创新 2026-03-18 4330 0

来源:PaperWeekly

TL;DR:本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型。

论文标题:

UniOD: A Universal Model for Outlier Detection across Diverse Domains

论文作者:

付达智,樊继聪

收录会议

ICLR 2026

论文链接:

https://arxiv.org/abs/2507.06624

Highlights:

提出一种新颖的异常点检测方法 UniOD:可利用历史数据集中的知识,在面对全新、未见过的数据集时无需训练即可直接识别异常点。

相较于其他深度学习异常检测方法,UniOD 仅需单一模型覆盖多数据集场景;同时由于跳过重新训练,检测阶段计算开销更低。

我们为 UniOD 的有效性提供了理论保证,并通过数值实验验证与理论结论相吻合。

在来自 ADbench 的 57 个来自多个不同领域的数据集上对比 17 种基线方法,UniOD 在多数场景下取得更优性能。

引言

异常点(Outliers)是指在数据集中显著偏离其他正常数据分布的观测样本,通常表明其可能来源于不同的生成机制。

在日益数据驱动的时代背景下,识别异常模式或偏离正常行为的现象——即异常检测——已成为多个领域中的关键问题。

这类异常数据往往指示着关键事件的发生,例如金融欺诈、安全入侵、系统故障,或潜在的新知识发现,因此对其进行准确而及时的检测对于快速干预与科学决策具有至关重要的意义。

离群点检测或异常检测旨在发现完全无标签数据集中的异常数据,在各个领域中有广泛的应用。

wKgZPGm5-3yAClX2AAYL7XTCLaY166.jpg

如图 1 所示,以往的异常检测方法往往需要针对不同的数据集训练不同的模型。这意味着当面对一个新的数据集——尤其是来自不同领域的数据集时——我们通常需要从零开始训练异常检测模型,由此带来以下局限性:

高成本的模型选择与超参数调优: 尤其对于基于深度学习的异常检测方法,需要确定网络深度、网络宽度、学习率以及方法特定的超参数。

如图 2 所示,不同数据集对应的最优超参数组合差异显著,从而带来较大的调参与模型选择难度。

评估前计算开销大、等待时间长:训练或拟合过程往往耗时,尤其是在模型规模和数据规模较大时更为明显,导致部署前需要付出较高的计算成本并产生较长的等待周期。

未能有效利用历史数据集中的知识:历史数据集通常蕴含关于正常样本与异常样本模式的有用且可迁移知识,但传统异常检测方法难以将这些知识有效复用与迁移。

方法

为了解决上述问题,我们提出了一个通用异常检测模型 - UniOD,该方法的核心思想是:该方法能够利用来自不同领域的、带标签的历史数据集(在大数据时代通常易于获取)训练一个通用模型,从而在面对任意未见过领域的数据集时,无需进行任何重新训练即可检测其中的异常点。

该方法的框架如下图 3 所示。

wKgZO2m5-3yAECsKAAMp2taLgEQ950.jpg

2.1 Data Unification-构建通用的数据

考虑到数据集尤其是表格数据集往往在维度、特征语义以及样本规模等方面存在较大差异,如何统一特征空间是训练通用模型的关键步骤。

我们首先进行预处理,以统一其特征空间——标准化特征维度数量,并对每个特征的语义含义进行对齐与规范化。

我们的做法分为两步:

将数据集表示为样本级的相似度矩阵(即图结构)。

对于数据集中的任意两点,我们使用多个不同带宽的高斯核函数计算其相似度。

基于相似度矩阵构建统一特征。

我们对相似度矩阵使用奇异值分解得到每一个数据的特征。这样得到的特征都是对相似度矩阵结构的描述,因此不同数据集之间是可比的。

2.2 基于图神经网络的模型设计

现在我们得到了数据的统一特征,需要解决的问题是:如何设计模型进行训练?

一个直接的想法是用 MLP 在历史数据集上训练一个分类器,然而该方法不能充分利用相似度矩阵中所包含的有价值信息。

为了充分利用样本间的相似度信息,我们把每一个数据集当作图结构的数据,这样样本级的异常检测任务可以被转化为图节点级的异常检测任务,同时可以使用 GIN(图同构网络)和 transformer 并行的结构作为我们的分类器。

2.3 理论分析

我们提出了如定理 4.1 所示的关于期望泛化误差和平均训练误差理论分析,该定理具有以下重要意义:

当训练数据集数量更多(即 更大)时,理论上界会更紧,从而使得泛化误差更小。

增大 GIN 与 transformer 的数量可以降低训练误差,从而提高测试准确率

当 GIN 和 transformer 的层数过大时,UniOD 的泛化能力会减弱。

实验

3.1 主要实验结果

本文在常用的异常检测基准 ADBench 的 30 个数据集上进行了测试,在历史数据集的划分上,我们随机将这 30 个数据集划分为两组,其中一组作为历史数据集,一组作为评估数据集,并做了交叉验证。

评测指标采用了 AUROC 和 AUPRC,对所有基线方法均基于历史数据集进行了超参数搜索。

wKgZPGm5-3yAaHyaAAm-1MXG7xA847.jpg

Table2 和 Table3 所示的实验结果表明:UniOD 比起其他基线方法在大多数数据集以及平均性能上有较大优势。

wKgZO2m5-3yAFN7mAAtv_0e3W_0173.jpg

同时,我们也在 ADBench 的另外 27 个数据集上进行了测试,这 27 个数据集中包含图像数据集与文本数据集(使用 ViT 和 BERT 提取特征),

Table19 中的实验结果表明 UniOD 可以泛化到其他模态的数据集上,尽管只使用表格数据集训练。

wKgZPGm5-3yAYAwDAAgU2N5-1dU936.jpg

3.2 领域鲁棒性分析

我们评估 UniOD 在物理、航天与图像领域数据集上的表现时,同时在训练阶段系统性移除所有来自相同领域/方向的历史数据集。

在 Table15 中,排除这些领域特定的训练数据并未导致对应测试领域的性能出现显著下降。

wKgZPGm5-3yACacPAADTirlK7qs978.jpg

md

我们将这种鲁棒性归因于两点关键因素:

即便同属一个领域的数据集,其特征空间与数据特性也可能存在显著差异;

UniOD 并不直接依赖原始特征,而是利用相似度矩阵来构建跨数据集、维度一致的特征。因此,不同领域的数据集在其相似度矩阵中仍可能呈现相近的结构模式,从而支持有效的跨领域泛化。

3.3 消融实验

我们评估了在使用 1、3、5、10、15 个历史训练数据集的情况下 UniOD 的性能变化,如图 4(a) 所示。可以明显观察到,随着历史数据集数量的增加,模型的泛化性能相应提升。

wKgZO2m5-3yAec-vAAMzqNw7ZmQ393.jpg

我们进一步分析了带宽数量 对 UniOD 性能的影响。更大的 能够带来更少的信息损失,从而提升模型的泛化能力,如图 4(b) 所示。上述实验结果与定理的理论分析一致。

结论

本文提出了一种新颖且高效的异常点检测方法 UniOD。其核心思想是利用历史数据集训练一个通用深度模型,从而在无需重新训练的情况下,对来自不同领域的全新未见数据集进行异常检测。

通过将每个数据集转换为图结构数据并生成维度统一的节点特征,UniOD 使得单一模型即可处理异构数据集成为可能。

我们从理论分析与实证实验两方面系统性地验证了 UniOD 的有效性与高效性。

尽管 UniOD 主要面向传导式(transductive)异常检测场景设计,但其同样可以扩展到归纳式(inductive)异常检测:即通过将训练集与每个测试样本转换为图结构数据,并计算其对应的异常分数,从而实现对新样本的异常判别。

从研究的角度出发,本文提出了异常检测的新研究方向——通用异常检测模型或异常检测基础模型。从工程与应用的角度出发,UniOD 不需要依赖于专业能力的调参或训练步骤,可以即插即用,降低了模型的使用门槛。

推荐阅读: