1 异常值分析简介
- 1.1 简介
- 1.2 数据模型就是一切
  - 1.2.1 与监督模型的连接
- 1.3 基本异常值检测模型
  - 1.3.1 异常值检测中的特征选择
  - 1.3.2 极值分析
  - 1.3.3 概率和统计模型
  - 1.3.4 线性模型
  - 1.3.5 基于邻近的模型
  - 1.3.6 信息理论模型
  - 1.3.7 高维异常值检测
- 1.4 异常集成方法
  - 1.4.1 序列集成
  - 1.4.2 独立集成
- 1.5 分析的基本数据类型
  - 1.5.1 分类，文本和混合属性
  - 1.5.2 当数据值具有依赖关系时
    - 1.5.2.1 时间序列数据和数据流
    - 1.5.2.2 离散序列
    - 1.5.2.3 空间数据
    - 1.5.2.4 网络和图形数据
- 1.6 监督离群检测
- 1.7 异常值评估技术
  - 1.7.1 解释ROCAUC
  - 1.7.2 基准测试中的常见错误
- 1.8 结论和总结
- 1.9 书目调查
- 1.10 练习
2 异常值检测的概率模型
- 2.1 简介
- 2.2 极值分析的统计方法
  - 2.2.1 概率尾部不等式
    - 2.2.1.1 有界随机变量之和
  - 2.2.2 统计-尾部置信度测试
    - 2.2.2.1 t-Value 测试
    - 2.2.2.2 偏差平方和
    - 2.2.2.3 用箱形图可视化极值
- 2.3 多变量数据的极值分析
  - 2.3.1 基于深度的方法
  - 2.3.2 基于偏差的方法
  - 2.3.3 基于角度的检测器检测
  - 2.3.4 基于距离分布的技术：马哈拉诺比斯方法
    - 2.3.4.1 马哈拉诺比斯方法的优势
- 2.4 异常分析的概率混合建模
  - 2.4.1 与聚类方法的关系
  - 2.4.2 单一混合物组分的特殊情况
  - 2.4.3 利用EM模型的其他方法
  - 2.4.4 EM用于将得分转换为概率的应用
- 2.5 概率建模的局限性
- 2.6 结论和总结
- 2.7 书目调查
- 2.8 练习
3 离群检测的线性模型
- 3.1 简介
- 3.2 线性回归模型
  - 3.2.1 依赖变量建模
    - 3.2.1.1 因变量建模的应用
  - 3.2.2 具有均方投影误差的线性建模
- 3.3 主成分分析
  - 3.3.1 与马哈拉诺比斯方法的联系
  - 3.3.2 硬PCA与软PCA
  - 3.3.3 对噪声的敏感性
  - 3.3.4 标准化问题
  - 3.3.5 正规化问题
  - 3.3.6 噪声校正的应用
  - 3.3.7 有多少个特征向量？
  - 3.3.8 非线性数据分布的扩展
    - 3.3.8.1 相似矩阵的选择
    - 3.3.8.2 实际问题
    - 3.3.8.3对任意数据类型的应用
- 3.4 一类支持向量机
  - 3.4.1 解决双重优化问题
  - 3.4.2 实用问题
  - 3.4.3 支持向量数据描述和其他内核模型的连接
- 3.5 线性模型的矩阵分解视图
- 3.5.1 不完整数据中的离群值检测
  - 3.5.1.1 计算出的变量数据
- 3.6 神经网络：从线性模型到深度学习
  - 3.6.1 泛化到非线性模型
  - 3.6.2 复制器神经网络和深度自动编码器
  - 3.6.3 实际问题
  - 3.6.4 神经网络的广泛潜力
- 3.7 线性建模的局限性
- 3.8 结论和总结
- 3.9 书目调查
- 3.10 练习
4 基于邻近的离群值检测
- 4.1 简介
- 4.2 集群和异常值：互补关系
  - 4.2.1 对任意形状群集的扩展
    - 4.2.1.1 对任意数据类型的应用
  - 4.2.2 聚类方法的优缺点
- 4.3 基于距离的异常值分析
  - 4.3.1 基于距离的方法的评分输出
  - 4.3.2 基于距离的方法的二进制输出
    - 4.3.2.1 基于小区的打包（Cell-BasedPruning）
    - 4.3.2.2 基于采样的打包
    - 4.3.2.3 基于指数的打算
  - 4.3.3 数据相关的相似性
  - 4.3.4 ODIN：反向最近邻方法
  - 4.3.5 基于距离的异常值的内涵知识
  - 4.3.6 基于距离的方法的讨论
- 4.4 基于密度的异常值
  - 4.4.1 LOF：局部异常因子
    - 4.4.1.1 处理重复点和稳定性问题
  - 4.4.2 LOCI：局部相关积分
    - 4.4.2.1 LOCI图
  - 4.4.3 基于直方图的技术
  - 4.4.4 核密度估计
    - 4.4.4.1 与谐波k-最近邻检测器的连接
    - 4.4.4.2 核方法的局部变化
  - 4.4.5 基于集合的直方图和核方法实现
- 4.5 基于邻近的检测限制
- 4.6 结论和总结
- 4.7 书目调查
- 4.8 练习
5 高维异常值检测
- 5.1 简介
- 5.2 轴平行子空间
  - 5.2.1 异常值检测的遗传算法
    - 5.2.1.1 定义异常低维投影
    - 5.2.1.2 为子空间搜索定义遗传算子
  - 5.2.2 查找基于距离的外围子空间
  - 5.2.3 特征装袋：子空间采样透视
  - 5.2.4 预计的聚类集合
  - 5.2.5 线性时间内的子空间直方图
  - 5.2.6 孤立森林
    - 5.2.6.1 子空间选择的进一步增强
    - 5.2.6.2 早期终止
    - 5.2.6.3 与聚类集合和直方图的关系
  - 5.2.7 选择高对比度子空间
  - 5.2.8 子空间投影的局部选择
  - 5.2.9 基于距离的参考表
- 5.3 广义子空间
  - 5.3.1 广义预测聚类方法
  - 5.3.2 利用特定于实例的参考集
  - 5.3.3 旋转子空间采样
  - 5.3.4 非线性子空间
  - 5.3.5 回归模型技术
- 5.4 讨论子空间分析
- 5.5 结论和总结
- 5.6 书目调查
- 5.7 练习
6 异常集合
- 6.1 简介
- 6.2 分类和设计集合方法
  - 6.2.1 基本分数归一化和组合方法
- 6.3 异常集合的理论基础
  - 6.3.1 什么是期望计算结果？
  - 6.3.2 集合分析与偏差 - 方差权衡的关系
- 6.4 方差减少方法
  - 6.4.1 参数集合
  - 6.4.2 随机检测器平均值
  - 6.4.3 特征套袋：以集合为中心的视角
    - 6.4.3.1 与代表性偏差的联系
    - 6.4.3.2 特征标记的弱点
  - 6.4.4 旋转套袋
  - 6.4.5 孤立森林：以集合为中心的视角
  - 6.4.6 采样的以数据为中心的方差减少
    - 6.4.6.1 装袋
    - 6.4.6.2 子采样
    - 6.4.6.3 可变子采样
    - 6.4.6.4 带旋转套袋（VR）的可变子采样
  - 6.4.7 其他方差减少方法
- 6.5 具有偏置减少的飞行盲目
  - 6.5.1 通过以数据为中心的修剪减少偏差
  - 6.5.2 以模型为中心的修剪减少偏差
  - 6.5.3 结合偏差和方差减少
- 6.6 离群集合的模型组合
  - 6.6.1 将评分方法与等级相结合
  - 6.6.2 结合偏差和方差减少
- 6.7 结论和总结
- 6.8 书目调查
- 6.9 练习
7 监督离群检测
- 7.1 简介
- 7.2 全面监督：罕见的班级检测
  - 7.2.1 成本敏感学习
    - 7.2.1.1 MetaCost：重新贴标签方法
    - 7.2.1.2 加权方法
  - 7.2.2 自适应采样
    - 7.2.2.1 加权和采样之间的关系
    - 7.2.2.2 合成过采样：SMOTE
  - 7.2.3 提升方法
- 7.3 半监督：正面和非标记数据
- 7.4 半监督：部分观察课程
  - 7.4.1 具有异常示例的一类学习
  - 7.4.2 正常例子的一类学习
  - 7.4.3 使用标记类子集进行学习
- 7.5 监督方法中的无监督特征工程
- 7.6 主动学习
- 7.7 用于无监督异常值检测的监督模型
  - 7.7.1 与基于PCA的方法的连接
  - 7.7.2 高维数据的分组预测
  - 7.7.3 对混合属性数据集的适用性
  - 7.7.4 合并逐行知识
  - 7.7.5 合成异常值的其他分类方法
- 7.8 结论和总结
- 7.9 书目调查
- 7.10 练习
8 分类，文本和混合属性数据
- 8.1 简介
- 8.2 将概率模型扩展到分类数据
  - 8.2.1 混合数据建模
- 8.3 将线性模型扩展到分类和混合数据
  - 8.3.1 利用有监督的回归模型
- 8.4 将邻近模型扩展到分类数据
  - 8.4.1 汇总统计相似性
  - 8.4.2 上下文相似性
    - 8.4.2.1 与线性模型的连接
  - 8.4.3 混合数据的问题
  - 8.4.4 基于密度的方法
  - 8.4.5 聚类方法
- 8.5 二进制和事务数据中的异常值检测
  - 8.5.1 子空间方法
  - 8.5.2 时间交易中的新颖性
- 8.6 文本数据中的异常值检测
  - 8.6.1 概率模型
  - 8.6.2 线性模型：潜在语义分析
    - 8.6.2.1 概率潜在语义分析（PLSA）
  - 8.6.3 基于邻近度的模型
    - 8.6.3.1 第一个故事检测
- 8.7 结论和总结
- 8.8 书目调查
- 8.9 练习
9 时间序列和流式异常值检测
- 9.1 简介
- 9.2 流时间序列中的预测异常值检测
  - 9.2.1 自动回归模型
  - 9.2.2 多时间序列回归模型
    - 9.2.2.1 自回归模型的直接推广
    - 9.2.2.2 时间序列选择方法
    - 9.2.2.3 主成分分析和基于隐藏变量的模型
  - 9.2.3 无监督离群检测与预测之间的关系
  - 9.2.4 时间序列中的监督点异常值检测
- 9.3 异常形状的时间序列
  - 9.3.1 转换为其他表示
    - 9.3.1.1 数值多维转换
    - 9.3.1.2 离散序列变换
    - 9.3.1.3 利用时间序列的轨迹表示
  - 9.3.2 基于距离的方法
    - 9.3.2.1 单系列与多系列
  - 9.3.3 概率模型
  - 9.3.4 线性模型
    - 9.3.4.1 单变量系列
    - 9.3.4.2 多变量系列
    - 9.3.4.3 结合任意相似度函数
    - 9.3.4.4 利用线性模型的核方法
  - 9.3.5 查找异常时间序列形状的监督方法
- 9.4 多维流式离群检测
  - 9.4.1 作为异常值的单个数据点
    - 9.4.1.1 基于邻近算法
    - 9.4.1.2 概率算法
    - 9.4.1.3 高维场景
  - 9.4.2 汇总变更点作为异常值
    - 9.4.2.1 速度密度估算方法
    - 9.4.2.2 总体分布的统计显着变化
  - 9.4.3 多维数据流中的罕见和新颖的类检测
    - 9.4.3.1 检测稀有类
    - 9.4.3.2 检测新类
    - 9.4.3.3 检测不经常重复的类
- 9.5 结论和总结
- 9.6 书目调查
- 9.7 练习
10 离散序列中的异常值检测
- 10.1 简介
- 10.2 位置异常值
  - 10.2.1 基于规则的模型
  - 10.2.2 马尔可夫模型
  - 10.2.3 效率问题：概率后缀树
- 10.3 组合异常值
  - 10.3.1 组合异常值检测的原始模型
    - 10.3.1.1 特定于模型的组合问题
    - 10.3.1.2 更容易的特殊情况
    - 10.3.1.3 位置和组合异常值之间的关系
  - 10.3.2 基于距离的模型
    - 10.3.2.1 组合比较单位的异常分数
    - 10.3.2.2 对基于距离的方法的一些观察
    - 10.3.2.3 更简单的特例：短序列
  - 10.3.3 基于频率的模型
    - 10.3.3.1 基于频率的模型，具有用户指定的比较单元
    - 10.3.3.2 基于频率的模型，具有提取的比较单元
    - 10.3.3.3 组合来自比较单元的异常分数
  - 10.3.4 隐马尔可夫模型
    - 10.3.4.1 隐马尔可夫模型中的设计选择
    - 10.3.4.2 培训和预测与人力资源管理
    - 10.3.4.3 评估：计算观察到的序列的拟合概率
    - 10.3.4.4 说明：确定最可能的状态序列观察序列
    - 10.3.4.5 训练：Baum-Welch算法
    - 10.3.4.6 计算异常分数
    - 10.3.4.7 特例：短序列异常检测
  - 10.3.5 基于内核的方法
- 10.4 复杂序列和场景
  - 10.4.1 多变量序列
  - 10.4.2 基于集合的序列
  - 10.4.3 在线应用：早期异常检测
- 10.5 序列中的监督异常值
- 10.6 结论和总结
- 10.7 书目调查
- 10.8 练习
11 空间离群检测
- 11.1 简介
- 11.2 空间属性是对话
  - 11.2.1 基于邻域的算法
    - 11.2.1.1 多维方法
    - 11.2.1.2 基于图的方法
    - 11.2.1.3 多行为属性的情况
  - 11.2.2 自动回归模型
  - 11.2.3 使用变量图云可视化
  - 11.2.4 查找空间数据中的异常形状
    - 11.2.4.1 轮廓提取方法
    - 11.2.4.2 提取多维表示
    - 11.2.4.3 多维小波变换
    - 11.2.4.4 监督形状发现
    - 11.2.4.5 异常形状变化检测
- 11.3 具有时空背景的时空异常值
- 11.4 具有时间背景的空间行为：轨迹
  - 11.4.1 实时异常检测
  - 11.4.2 不寻常的轨迹形状
    - 11.4.2.1 分段分区方法
    - 11.4.2.2 基于平铺的变换
    - 11.4.2.3 基于相似性的变换
  - 11.4.3 轨迹中的监督异常值
- 11.5 结论和总结
- 11.6 书目调查
- 11.7 练习
12 图形和网络中的异常值检测
- 12.1 简介
- 12.2 异常值检测在许多小图中
  - 12.2.1 利用图形内核
- 12.3 单个大图中的异常值检测
  - 12.3.1节点异常值
    - 12.3.1.1 利用Mahalanobis方法
  - 12.3.2 链接异常值
    - 12.3.2.1 矩阵分解方法
    - 12.3.2.2 光谱方法和嵌入
    - 12.3.2.3 聚类方法
    - 12.3.2.4 社区联系异常值
  - 12.3.3 子图异常值
- 12.4 异常值分析中的节点内容
  - 12.4.1 共享矩阵分解
  - 12.4.2 关联特征与领带强度的相似性
  - 12.4.3 异构马尔可夫随机场
- 12.5 基于变换的外部矩形在时间图中
  - 12.5.1 发现图流中的节点热点
  - 12.5.2 链路异常的流检测
  - 12.5.3 基于社区演化的异常值
    - 12.5.3.1 集成聚类维护与进化分析
    - 12.5.3.2 图形流中社区进化的在线分析
    - 12.5.3.3 图形范围
  - 12.5.4 基于最短路径距离变化的异常值
  - 12.5.5 矩阵分解和潜在嵌入方法
- 12.6 结论和总结
- 12.7 书目调查
- 12.8 练习
13 异常值分析的应用
- 13.1 简介
- 13.2 质量控制和故障检测应用
- 13.3 金融应用
- 13.4 Web日志分析
- 13.5 入侵和安全应用
- 13.6 医疗应用
- 13.7 文字和社交媒体应用
- 13.8 地球科学应用
- 13.9 其他应用
- 13.10 从业人员指南
  - 13.10.1 哪些无监督算法效果最好？
- 13.11 从业人员资源
- 13.12 结论和总结

目录

目录

results matching ""

No results matching ""