第2章

异常检测的概率和统计模型

“有四个参数,我可以装一头大象,五个,我可以让他摆动他的行李箱。” - John von Neumann

2.1简介

最早的离群检测方法植根于概率和统计模型,可追溯到19世纪[180]。这些方法是在计算机技术出现和普及之前提出的,因此设计时没有太多关注数据表示或计算效率等实际问题。然而,基础数学模型非常有用,并且最终适用于各种计算场景。

异常值分析中流行的统计建模形式是检测极端单变量值。在这种情况下,希望确定单变量分布的尾部的数据值以及相应的统计显着性水平。虽然极端单变量值属于非常特定的异常值类别,但它们有许多应用。例如,几乎所有异常检测算法都使用数字分数来测量数据点的异常,这些算法的最后一步是确定这些分数的极值。识别具有统计显着性的极值有助于将异常值得分转换为二进制标签。由不同类算法使用的异常值评分机制的一些示例如下:

•在概率建模中,数据点与生成模型的可能拟合度是异常值。

•在基于邻近度的建模中,k-最近邻距离,距离最近的聚类质心的距离或局部密度值是异常值。

•在线性建模中,数据点与数据的低维表示的剩余距离是异常值。

•在时间建模中,数据点与其预测值的偏差用于创建离群值分数。

因此,即使不能对原始数据执行极值建模,从一组离群值得分有效地确定极值的能力也构成了所有离群值检测算法的基石,作为最后一步。因此,本章将广泛研究极值建模问题。

极值建模也可以轻松扩展到多变量数据。位于数据的帕累托极值上的数据点被称为多变量极值。例如,在图2.1中,数据点'B'是一个多变量极值。另一方面,数据点'A'是异常值,但不是多变量极值。多变量极值分析方法有时也用于一般异常值分析。这些技术有时在现实世界的异常值分析应用程序中表现出色,但它们并非旨在成为一般的离群值分析方法。这种行为的原因主要在于,真实世界的特征提取方法有时会创建表示异常值是由极值引起的表示。例如,在信用卡欺诈检测应用程序中,通常提取与交易的大小和频率相对应的特征。异常大或频繁的交易通常对应于异常值。即使以这种方式提取特征的子集,它也可以极大地提高多变量极值分析方法对异常值检测的有效性。在一般情况下使用这种方法的缺点是这些方法错过了图2.1中的“A”等数据点。然而,尽管存在这种明显的缺点,但在实际应用中不应忽视这些方法。在许多情况下,可以将这些技术添加为集合方法的一个或多个组件(参见第6章),以提高其准确性。

也可以使用概率建模来寻找超出极值的一般异常值。例如,在图2.1中,可以将数据集建模为三个高斯分量的混合,因此发现异常值'A'和'B'。混合模型可以被认为是聚类算法的概率版本,可以将异常值发现为一个边-产品。这些方法的一个显着优点是,一旦定义了数据的生成模型,它们很容易推广到不同的数据格式甚至混合属性类型。大多数概率模型假设每种混合分量(例如,高斯分布)的基础分布的特定形式,以模拟数据点的正常模式。随后,学习该模型的参数以便观察

数据具有由模型生成的最大可能性[164]。因此,该模型是数据的生成模型,并且可以从该模型估计生成特定数据点的概率。由模型生成的概率异常低的数据点被识别为异常值。混合模型是多元极值分析的自然概括;例如,如果我们将混合物建模为包含单个高斯分量,则该方法专门研究一种最着名的多变量极值分析方法(参见2.3.4节中的马哈拉诺比斯方法)。

本章安排如下。下一节将讨论单变量极值分析的统计模型。多变量数据中的极值分析方法将在2.3节中讨论。 2.4节讨论了异常值的概率建模方法。第2.5节讨论了异常值分析的概率模型的局限性。第2.6节介绍了结论和总结。

2.2极值分析的统计方法

在本节中,我们将介绍单变量数据分布中极值分析的概率和统计方法。概率分布中的极值统称为分布尾。极值分析的统计方法量化了分布尾部的概率。显然,尾部的概率值非常低,表明其中的数据值应该被认为是异常的。在实际分布不可用的情况下,许多尾部不等式限制了这些概率。

2.2.1概率尾部不等式

可以使用尾部不等式来约束概率分布尾部的值应被视为异常的概率。尾部不等式的强度取决于对基础随机变量的假设数量。较少的假设会导致较弱的不等式,但这种不等式适用于较大类别的随机变量。例如,Markov和Chebychev不等式是弱不等式,但它们适用于非常大类的随机变量。另一方面,Chernoff界和Hoeffding不等式都是更强的不等式,但它们适用于受限类随机变量。

马尔可夫不等式是最基本的尾部不等式之一,它定义为仅采用非负值的分布。令X为随机变量,概率分布为fX(x),均值为E [X],方差为Var [X]。 定理2.2.1(马尔可夫不等式)设X是一个只接受非负随机值的随机变量。然后,对于任何满足E [X] <α的常数α,以下情况为真:

results matching ""

    No results matching ""