目录
- 1 异常值分析简介
- 1.1 简介
- 1.2 数据模型就是一切
- 1.2.1 与监督模型的连接
- 1.3 基本异常值检测模型
- 1.3.1 异常值检测中的特征选择
- 1.3.2 极值分析
- 1.3.3 概率和统计模型
- 1.3.4 线性模型
- 1.3.5 基于邻近的模型
- 1.3.6 信息理论模型
- 1.3.7 高维异常值检测
- 1.4 异常集成方法
- 1.4.1 序列集成
- 1.4.2 独立集成
- 1.5 分析的基本数据类型
- 1.5.1 分类,文本和混合属性
- 1.5.2 当数据值具有依赖关系时
- 1.5.2.1 时间序列数据和数据流
- 1.5.2.2 离散序列
- 1.5.2.3 空间数据
- 1.5.2.4 网络和图形数据
- 1.6 监督离群检测
- 1.7 异常值评估技术
- 1.7.1 解释ROCAUC
- 1.7.2 基准测试中的常见错误
- 1.8 结论和总结
- 1.9 书目调查
- 1.10 练习
- 2 异常值检测的概率模型
- 2.1 简介
- 2.2 极值分析的统计方法
- 2.2.1 概率尾部不等式
- 2.2.1.1 有界随机变量之和
- 2.2.2 统计-尾部置信度测试
- 2.2.2.1 t-Value 测试
- 2.2.2.2 偏差平方和
- 2.2.2.3 用箱形图可视化极值
- 2.2.1 概率尾部不等式
- 2.3 多变量数据的极值分析
- 2.3.1 基于深度的方法
- 2.3.2 基于偏差的方法
- 2.3.3 基于角度的检测器检测
- 2.3.4 基于距离分布的技术:马哈拉诺比斯方法
- 2.3.4.1 马哈拉诺比斯方法的优势
- 2.4 异常分析的概率混合建模
- 2.4.1 与聚类方法的关系
- 2.4.2 单一混合物组分的特殊情况
- 2.4.3 利用EM模型的其他方法
- 2.4.4 EM用于将得分转换为概率的应用
- 2.5 概率建模的局限性
- 2.6 结论和总结
- 2.7 书目调查
- 2.8 练习
- 3 离群检测的线性模型
- 3.1 简介
- 3.2 线性回归模型
- 3.2.1 依赖变量建模
- 3.2.1.1 因变量建模的应用
- 3.2.2 具有均方投影误差的线性建模
- 3.2.1 依赖变量建模
- 3.3 主成分分析
- 3.3.1 与马哈拉诺比斯方法的联系
- 3.3.2 硬PCA与软PCA
- 3.3.3 对噪声的敏感性
- 3.3.4 标准化问题
- 3.3.5 正规化问题
- 3.3.6 噪声校正的应用
- 3.3.7 有多少个特征向量?
- 3.3.8 非线性数据分布的扩展
- 3.3.8.1 相似矩阵的选择
- 3.3.8.2 实际问题
- 3.3.8.3对任意数据类型的应用
- 3.4 一类支持向量机
- 3.4.1 解决双重优化问题
- 3.4.2 实用问题
- 3.4.3 支持向量数据描述和其他内核模型的连接
- 3.5 线性模型的矩阵分解视图
- 3.5.1 不完整数据中的离群值检测
- 3.5.1.1 计算出的变量数据
- 3.6 神经网络:从线性模型到深度学习
- 3.6.1 泛化到非线性模型
- 3.6.2 复制器神经网络和深度自动编码器
- 3.6.3 实际问题
- 3.6.4 神经网络的广泛潜力
- 3.7 线性建模的局限性
- 3.8 结论和总结
- 3.9 书目调查
- 3.10 练习
- 4 基于邻近的离群值检测
- 4.1 简介
- 4.2 集群和异常值:互补关系
- 4.2.1 对任意形状群集的扩展
- 4.2.1.1 对任意数据类型的应用
- 4.2.2 聚类方法的优缺点
- 4.2.1 对任意形状群集的扩展
- 4.3 基于距离的异常值分析
- 4.3.1 基于距离的方法的评分输出
- 4.3.2 基于距离的方法的二进制输出
- 4.3.2.1 基于小区的打包(Cell-BasedPruning)
- 4.3.2.2 基于采样的打包
- 4.3.2.3 基于指数的打算
- 4.3.3 数据相关的相似性
- 4.3.4 ODIN:反向最近邻方法
- 4.3.5 基于距离的异常值的内涵知识
- 4.3.6 基于距离的方法的讨论
- 4.4 基于密度的异常值
- 4.4.1 LOF:局部异常因子
- 4.4.1.1 处理重复点和稳定性问题
- 4.4.2 LOCI:局部相关积分
- 4.4.2.1 LOCI图
- 4.4.3 基于直方图的技术
- 4.4.4 核密度估计
- 4.4.4.1 与谐波k-最近邻检测器的连接
- 4.4.4.2 核方法的局部变化
- 4.4.5 基于集合的直方图和核方法实现
- 4.4.1 LOF:局部异常因子
- 4.5 基于邻近的检测限制
- 4.6 结论和总结
- 4.7 书目调查
- 4.8 练习
- 5 高维异常值检测
- 5.1 简介
- 5.2 轴平行子空间
- 5.2.1 异常值检测的遗传算法
- 5.2.1.1 定义异常低维投影
- 5.2.1.2 为子空间搜索定义遗传算子
- 5.2.2 查找基于距离的外围子空间
- 5.2.3 特征装袋:子空间采样透视
- 5.2.4 预计的聚类集合
- 5.2.5 线性时间内的子空间直方图
- 5.2.6 孤立森林
- 5.2.6.1 子空间选择的进一步增强
- 5.2.6.2 早期终止
- 5.2.6.3 与聚类集合和直方图的关系
- 5.2.7 选择高对比度子空间
- 5.2.8 子空间投影的局部选择
- 5.2.9 基于距离的参考表
- 5.2.1 异常值检测的遗传算法
- 5.3 广义子空间
- 5.3.1 广义预测聚类方法
- 5.3.2 利用特定于实例的参考集
- 5.3.3 旋转子空间采样
- 5.3.4 非线性子空间
- 5.3.5 回归模型技术
- 5.4 讨论子空间分析
- 5.5 结论和总结
- 5.6 书目调查
- 5.7 练习
- 6 异常集合
- 6.1 简介
- 6.2 分类和设计集合方法
- 6.2.1 基本分数归一化和组合方法
- 6.3 异常集合的理论基础
- 6.3.1 什么是期望计算结果?
- 6.3.2 集合分析与偏差 - 方差权衡的关系
- 6.4 方差减少方法
- 6.4.1 参数集合
- 6.4.2 随机检测器平均值
- 6.4.3 特征套袋:以集合为中心的视角
- 6.4.3.1 与代表性偏差的联系
- 6.4.3.2 特征标记的弱点
- 6.4.4 旋转套袋
- 6.4.5 孤立森林:以集合为中心的视角
- 6.4.6 采样的以数据为中心的方差减少
- 6.4.6.1 装袋
- 6.4.6.2 子采样
- 6.4.6.3 可变子采样
- 6.4.6.4 带旋转套袋(VR)的可变子采样
- 6.4.7 其他方差减少方法
- 6.5 具有偏置减少的飞行盲目
- 6.5.1 通过以数据为中心的修剪减少偏差
- 6.5.2 以模型为中心的修剪减少偏差
- 6.5.3 结合偏差和方差减少
- 6.6 离群集合的模型组合
- 6.6.1 将评分方法与等级相结合
- 6.6.2 结合偏差和方差减少
- 6.7 结论和总结
- 6.8 书目调查
- 6.9 练习
- 7 监督离群检测
- 7.1 简介
- 7.2 全面监督:罕见的班级检测
- 7.2.1 成本敏感学习
- 7.2.1.1 MetaCost:重新贴标签方法
- 7.2.1.2 加权方法
- 7.2.2 自适应采样
- 7.2.2.1 加权和采样之间的关系
- 7.2.2.2 合成过采样:SMOTE
- 7.2.3 提升方法
- 7.2.1 成本敏感学习
- 7.3 半监督:正面和非标记数据
- 7.4 半监督:部分观察课程
- 7.4.1 具有异常示例的一类学习
- 7.4.2 正常例子的一类学习
- 7.4.3 使用标记类子集进行学习
- 7.5 监督方法中的无监督特征工程
- 7.6 主动学习
- 7.7 用于无监督异常值检测的监督模型
- 7.7.1 与基于PCA的方法的连接
- 7.7.2 高维数据的分组预测
- 7.7.3 对混合属性数据集的适用性
- 7.7.4 合并逐行知识
- 7.7.5 合成异常值的其他分类方法
- 7.8 结论和总结
- 7.9 书目调查
- 7.10 练习
- 8 分类,文本和混合属性数据
- 8.1 简介
- 8.2 将概率模型扩展到分类数据
- 8.2.1 混合数据建模
- 8.3 将线性模型扩展到分类和混合数据
- 8.3.1 利用有监督的回归模型
- 8.4 将邻近模型扩展到分类数据
- 8.4.1 汇总统计相似性
- 8.4.2 上下文相似性
- 8.4.2.1 与线性模型的连接
- 8.4.3 混合数据的问题
- 8.4.4 基于密度的方法
- 8.4.5 聚类方法
- 8.5 二进制和事务数据中的异常值检测
- 8.5.1 子空间方法
- 8.5.2 时间交易中的新颖性
- 8.6 文本数据中的异常值检测
- 8.6.1 概率模型
- 8.6.2 线性模型:潜在语义分析
- 8.6.2.1 概率潜在语义分析(PLSA)
- 8.6.3 基于邻近度的模型
- 8.6.3.1 第一个故事检测
- 8.7 结论和总结
- 8.8 书目调查
- 8.9 练习
- 9 时间序列和流式异常值检测
- 9.1 简介
- 9.2 流时间序列中的预测异常值检测
- 9.2.1 自动回归模型
- 9.2.2 多时间序列回归模型
- 9.2.2.1 自回归模型的直接推广
- 9.2.2.2 时间序列选择方法
- 9.2.2.3 主成分分析和基于隐藏变量的模型
- 9.2.3 无监督离群检测与预测之间的关系
- 9.2.4 时间序列中的监督点异常值检测
- 9.3 异常形状的时间序列
- 9.3.1 转换为其他表示
- 9.3.1.1 数值多维转换
- 9.3.1.2 离散序列变换
- 9.3.1.3 利用时间序列的轨迹表示
- 9.3.2 基于距离的方法
- 9.3.2.1 单系列与多系列
- 9.3.3 概率模型
- 9.3.4 线性模型
- 9.3.4.1 单变量系列
- 9.3.4.2 多变量系列
- 9.3.4.3 结合任意相似度函数
- 9.3.4.4 利用线性模型的核方法
- 9.3.5 查找异常时间序列形状的监督方法
- 9.3.1 转换为其他表示
- 9.4 多维流式离群检测
- 9.4.1 作为异常值的单个数据点
- 9.4.1.1 基于邻近算法
- 9.4.1.2 概率算法
- 9.4.1.3 高维场景
- 9.4.2 汇总变更点作为异常值
- 9.4.2.1 速度密度估算方法
- 9.4.2.2 总体分布的统计显着变化
- 9.4.3 多维数据流中的罕见和新颖的类检测
- 9.4.3.1 检测稀有类
- 9.4.3.2 检测新类
- 9.4.3.3 检测不经常重复的类
- 9.4.1 作为异常值的单个数据点
- 9.5 结论和总结
- 9.6 书目调查
- 9.7 练习
- 10 离散序列中的异常值检测
- 10.1 简介
- 10.2 位置异常值
- 10.2.1 基于规则的模型
- 10.2.2 马尔可夫模型
- 10.2.3 效率问题:概率后缀树
- 10.3 组合异常值
- 10.3.1 组合异常值检测的原始模型
- 10.3.1.1 特定于模型的组合问题
- 10.3.1.2 更容易的特殊情况
- 10.3.1.3 位置和组合异常值之间的关系
- 10.3.2 基于距离的模型
- 10.3.2.1 组合比较单位的异常分数
- 10.3.2.2 对基于距离的方法的一些观察
- 10.3.2.3 更简单的特例:短序列
- 10.3.3 基于频率的模型
- 10.3.3.1 基于频率的模型,具有用户指定的比较单元
- 10.3.3.2 基于频率的模型,具有提取的比较单元
- 10.3.3.3 组合来自比较单元的异常分数
- 10.3.4 隐马尔可夫模型
- 10.3.4.1 隐马尔可夫模型中的设计选择
- 10.3.4.2 培训和预测与人力资源管理
- 10.3.4.3 评估:计算观察到的序列的拟合概率
- 10.3.4.4 说明:确定最可能的状态序列观察序列
- 10.3.4.5 训练:Baum-Welch算法
- 10.3.4.6 计算异常分数
- 10.3.4.7 特例:短序列异常检测
- 10.3.5 基于内核的方法
- 10.3.1 组合异常值检测的原始模型
- 10.4 复杂序列和场景
- 10.4.1 多变量序列
- 10.4.2 基于集合的序列
- 10.4.3 在线应用:早期异常检测
- 10.5 序列中的监督异常值
- 10.6 结论和总结
- 10.7 书目调查
- 10.8 练习
- 11 空间离群检测
- 11.1 简介
- 11.2 空间属性是对话
- 11.2.1 基于邻域的算法
- 11.2.1.1 多维方法
- 11.2.1.2 基于图的方法
- 11.2.1.3 多行为属性的情况
- 11.2.2 自动回归模型
- 11.2.3 使用变量图云可视化
- 11.2.4 查找空间数据中的异常形状
- 11.2.4.1 轮廓提取方法
- 11.2.4.2 提取多维表示
- 11.2.4.3 多维小波变换
- 11.2.4.4 监督形状发现
- 11.2.4.5 异常形状变化检测
- 11.2.1 基于邻域的算法
- 11.3 具有时空背景的时空异常值
- 11.4 具有时间背景的空间行为:轨迹
- 11.4.1 实时异常检测
- 11.4.2 不寻常的轨迹形状
- 11.4.2.1 分段分区方法
- 11.4.2.2 基于平铺的变换
- 11.4.2.3 基于相似性的变换
- 11.4.3 轨迹中的监督异常值
- 11.5 结论和总结
- 11.6 书目调查
- 11.7 练习
- 12 图形和网络中的异常值检测
- 12.1 简介
- 12.2 异常值检测在许多小图中
- 12.2.1 利用图形内核
- 12.3 单个大图中的异常值检测
- 12.3.1节点异常值
- 12.3.1.1 利用Mahalanobis方法
- 12.3.2 链接异常值
- 12.3.2.1 矩阵分解方法
- 12.3.2.2 光谱方法和嵌入
- 12.3.2.3 聚类方法
- 12.3.2.4 社区联系异常值
- 12.3.3 子图异常值
- 12.3.1节点异常值
- 12.4 异常值分析中的节点内容
- 12.4.1 共享矩阵分解
- 12.4.2 关联特征与领带强度的相似性
- 12.4.3 异构马尔可夫随机场
- 12.5 基于变换的外部矩形在时间图中
- 12.5.1 发现图流中的节点热点
- 12.5.2 链路异常的流检测
- 12.5.3 基于社区演化的异常值
- 12.5.3.1 集成聚类维护与进化分析
- 12.5.3.2 图形流中社区进化的在线分析
- 12.5.3.3 图形范围
- 12.5.4 基于最短路径距离变化的异常值
- 12.5.5 矩阵分解和潜在嵌入方法
- 12.6 结论和总结
- 12.7 书目调查
- 12.8 练习
- 13 异常值分析的应用
- 13.1 简介
- 13.2 质量控制和故障检测应用
- 13.3 金融应用
- 13.4 Web日志分析
- 13.5 入侵和安全应用
- 13.6 医疗应用
- 13.7 文字和社交媒体应用
- 13.8 地球科学应用
- 13.9 其他应用
- 13.10 从业人员指南
- 13.10.1 哪些无监督算法效果最好?
- 13.11 从业人员资源
- 13.12 结论和总结