目录

  • 1 异常值分析简介
    • 1.1 简介
    • 1.2 数据模型就是一切
      • 1.2.1 与监督模型的连接
    • 1.3 基本异常值检测模型
      • 1.3.1 异常值检测中的特征选择
      • 1.3.2 极值分析
      • 1.3.3 概率和统计模型
      • 1.3.4 线性模型
      • 1.3.5 基于邻近的模型
      • 1.3.6 信息理论模型
      • 1.3.7 高维异常值检测
    • 1.4 异常集成方法
      • 1.4.1 序列集成
      • 1.4.2 独立集成
    • 1.5 分析的基本数据类型
      • 1.5.1 分类,文本和混合属性
      • 1.5.2 当数据值具有依赖关系时
        • 1.5.2.1 时间序列数据和数据流
        • 1.5.2.2 离散序列
        • 1.5.2.3 空间数据
        • 1.5.2.4 网络和图形数据
    • 1.6 监督离群检测
    • 1.7 异常值评估技术
      • 1.7.1 解释ROCAUC
      • 1.7.2 基准测试中的常见错误
    • 1.8 结论和总结
    • 1.9 书目调查
    • 1.10 练习
  • 2 异常值检测的概率模型
    • 2.1 简介
    • 2.2 极值分析的统计方法
      • 2.2.1 概率尾部不等式
        • 2.2.1.1 有界随机变量之和
      • 2.2.2 统计-尾部置信度测试
        • 2.2.2.1 t-Value 测试
        • 2.2.2.2 偏差平方和
        • 2.2.2.3 用箱形图可视化极值
    • 2.3 多变量数据的极值分析
      • 2.3.1 基于深度的方法
      • 2.3.2 基于偏差的方法
      • 2.3.3 基于角度的检测器检测
      • 2.3.4 基于距离分布的技术:马哈拉诺比斯方法
        • 2.3.4.1 马哈拉诺比斯方法的优势
    • 2.4 异常分析的概率混合建模
      • 2.4.1 与聚类方法的关系
      • 2.4.2 单一混合物组分的特殊情况
      • 2.4.3 利用EM模型的其他方法
      • 2.4.4 EM用于将得分转换为概率的应用
    • 2.5 概率建模的局限性
    • 2.6 结论和总结
    • 2.7 书目调查
    • 2.8 练习
  • 3 离群检测的线性模型
    • 3.1 简介
    • 3.2 线性回归模型
      • 3.2.1 依赖变量建模
        • 3.2.1.1 因变量建模的应用
      • 3.2.2 具有均方投影误差的线性建模
    • 3.3 主成分分析
      • 3.3.1 与马哈拉诺比斯方法的联系
      • 3.3.2 硬PCA与软PCA
      • 3.3.3 对噪声的敏感性
      • 3.3.4 标准化问题
      • 3.3.5 正规化问题
      • 3.3.6 噪声校正的应用
      • 3.3.7 有多少个特征向量?
      • 3.3.8 非线性数据分布的扩展
        • 3.3.8.1 相似矩阵的选择
        • 3.3.8.2 实际问题
        • 3.3.8.3对任意数据类型的应用
    • 3.4 一类支持向量机
      • 3.4.1 解决双重优化问题
      • 3.4.2 实用问题
      • 3.4.3 支持向量数据描述和其他内核模型的连接
    • 3.5 线性模型的矩阵分解视图
    • 3.5.1 不完整数据中的离群值检测
      • 3.5.1.1 计算出的变量数据
    • 3.6 神经网络:从线性模型到深度学习
      • 3.6.1 泛化到非线性模型
      • 3.6.2 复制器神经网络和深度自动编码器
      • 3.6.3 实际问题
      • 3.6.4 神经网络的广泛潜力
    • 3.7 线性建模的局限性
    • 3.8 结论和总结
    • 3.9 书目调查
    • 3.10 练习
  • 4 基于邻近的离群值检测
    • 4.1 简介
    • 4.2 集群和异常值:互补关系
      • 4.2.1 对任意形状群集的扩展
        • 4.2.1.1 对任意数据类型的应用
      • 4.2.2 聚类方法的优缺点
    • 4.3 基于距离的异常值分析
      • 4.3.1 基于距离的方法的评分输出
      • 4.3.2 基于距离的方法的二进制输出
        • 4.3.2.1 基于小区的打包(Cell-BasedPruning)
        • 4.3.2.2 基于采样的打包
        • 4.3.2.3 基于指数的打算
      • 4.3.3 数据相关的相似性
      • 4.3.4 ODIN:反向最近邻方法
      • 4.3.5 基于距离的异常值的内涵知识
      • 4.3.6 基于距离的方法的讨论
    • 4.4 基于密度的异常值
      • 4.4.1 LOF:局部异常因子
        • 4.4.1.1 处理重复点和稳定性问题
      • 4.4.2 LOCI:局部相关积分
        • 4.4.2.1 LOCI图
      • 4.4.3 基于直方图的技术
      • 4.4.4 核密度估计
        • 4.4.4.1 与谐波k-最近邻检测器的连接
        • 4.4.4.2 核方法的局部变化
      • 4.4.5 基于集合的直方图和核方法实现
    • 4.5 基于邻近的检测限制
    • 4.6 结论和总结
    • 4.7 书目调查
    • 4.8 练习
  • 5 高维异常值检测
    • 5.1 简介
    • 5.2 轴平行子空间
      • 5.2.1 异常值检测的遗传算法
        • 5.2.1.1 定义异常低维投影
        • 5.2.1.2 为子空间搜索定义遗传算子
      • 5.2.2 查找基于距离的外围子空间
      • 5.2.3 特征装袋:子空间采样透视
      • 5.2.4 预计的聚类集合
      • 5.2.5 线性时间内的子空间直方图
      • 5.2.6 孤立森林
        • 5.2.6.1 子空间选择的进一步增强
        • 5.2.6.2 早期终止
        • 5.2.6.3 与聚类集合和直方图的关系
      • 5.2.7 选择高对比度子空间
      • 5.2.8 子空间投影的局部选择
      • 5.2.9 基于距离的参考表
    • 5.3 广义子空间
      • 5.3.1 广义预测聚类方法
      • 5.3.2 利用特定于实例的参考集
      • 5.3.3 旋转子空间采样
      • 5.3.4 非线性子空间
      • 5.3.5 回归模型技术
    • 5.4 讨论子空间分析
    • 5.5 结论和总结
    • 5.6 书目调查
    • 5.7 练习
  • 6 异常集合
    • 6.1 简介
    • 6.2 分类和设计集合方法
      • 6.2.1 基本分数归一化和组合方法
    • 6.3 异常集合的理论基础
      • 6.3.1 什么是期望计算结果?
      • 6.3.2 集合分析与偏差 - 方差权衡的关系
    • 6.4 方差减少方法
      • 6.4.1 参数集合
      • 6.4.2 随机检测器平均值
      • 6.4.3 特征套袋:以集合为中心的视角
        • 6.4.3.1 与代表性偏差的联系
        • 6.4.3.2 特征标记的弱点
      • 6.4.4 旋转套袋
      • 6.4.5 孤立森林:以集合为中心的视角
      • 6.4.6 采样的以数据为中心的方差减少
        • 6.4.6.1 装袋
        • 6.4.6.2 子采样
        • 6.4.6.3 可变子采样
        • 6.4.6.4 带旋转套袋(VR)的可变子采样
      • 6.4.7 其他方差减少方法
    • 6.5 具有偏置减少的飞行盲目
      • 6.5.1 通过以数据为中心的修剪减少偏差
      • 6.5.2 以模型为中心的修剪减少偏差
      • 6.5.3 结合偏差和方差减少
    • 6.6 离群集合的模型组合
      • 6.6.1 将评分方法与等级相结合
      • 6.6.2 结合偏差和方差减少
    • 6.7 结论和总结
    • 6.8 书目调查
    • 6.9 练习
  • 7 监督离群检测
    • 7.1 简介
    • 7.2 全面监督:罕见的班级检测
      • 7.2.1 成本敏感学习
        • 7.2.1.1 MetaCost:重新贴标签方法
        • 7.2.1.2 加权方法
      • 7.2.2 自适应采样
        • 7.2.2.1 加权和采样之间的关系
        • 7.2.2.2 合成过采样:SMOTE
      • 7.2.3 提升方法
    • 7.3 半监督:正面和非标记数据
    • 7.4 半监督:部分观察课程
      • 7.4.1 具有异常示例的一类学习
      • 7.4.2 正常例子的一类学习
      • 7.4.3 使用标记类子集进行学习
    • 7.5 监督方法中的无监督特征工程
    • 7.6 主动学习
    • 7.7 用于无监督异常值检测的监督模型
      • 7.7.1 与基于PCA的方法的连接
      • 7.7.2 高维数据的分组预测
      • 7.7.3 对混合属性数据集的适用性
      • 7.7.4 合并逐行知识
      • 7.7.5 合成异常值的其他分类方法
    • 7.8 结论和总结
    • 7.9 书目调查
    • 7.10 练习
  • 8 分类,文本和混合属性数据
    • 8.1 简介
    • 8.2 将概率模型扩展到分类数据
      • 8.2.1 混合数据建模
    • 8.3 将线性模型扩展到分类和混合数据
      • 8.3.1 利用有监督的回归模型
    • 8.4 将邻近模型扩展到分类数据
      • 8.4.1 汇总统计相似性
      • 8.4.2 上下文相似性
        • 8.4.2.1 与线性模型的连接
      • 8.4.3 混合数据的问题
      • 8.4.4 基于密度的方法
      • 8.4.5 聚类方法
    • 8.5 二进制和事务数据中的异常值检测
      • 8.5.1 子空间方法
      • 8.5.2 时间交易中的新颖性
    • 8.6 文本数据中的异常值检测
      • 8.6.1 概率模型
      • 8.6.2 线性模型:潜在语义分析
        • 8.6.2.1 概率潜在语义分析(PLSA)
      • 8.6.3 基于邻近度的模型
        • 8.6.3.1 第一个故事检测
    • 8.7 结论和总结
    • 8.8 书目调查
    • 8.9 练习
  • 9 时间序列和流式异常值检测
    • 9.1 简介
    • 9.2 流时间序列中的预测异常值检测
      • 9.2.1 自动回归模型
      • 9.2.2 多时间序列回归模型
        • 9.2.2.1 自回归模型的直接推广
        • 9.2.2.2 时间序列选择方法
        • 9.2.2.3 主成分分析和基于隐藏变量的模型
      • 9.2.3 无监督离群检测与预测之间的关系
      • 9.2.4 时间序列中的监督点异常值检测
    • 9.3 异常形状的时间序列
      • 9.3.1 转换为其他表示
        • 9.3.1.1 数值多维转换
        • 9.3.1.2 离散序列变换
        • 9.3.1.3 利用时间序列的轨迹表示
      • 9.3.2 基于距离的方法
        • 9.3.2.1 单系列与多系列
      • 9.3.3 概率模型
      • 9.3.4 线性模型
        • 9.3.4.1 单变量系列
        • 9.3.4.2 多变量系列
        • 9.3.4.3 结合任意相似度函数
        • 9.3.4.4 利用线性模型的核方法
      • 9.3.5 查找异常时间序列形状的监督方法
    • 9.4 多维流式离群检测
      • 9.4.1 作为异常值的单个数据点
        • 9.4.1.1 基于邻近算法
        • 9.4.1.2 概率算法
        • 9.4.1.3 高维场景
      • 9.4.2 汇总变更点作为异常值
        • 9.4.2.1 速度密度估算方法
        • 9.4.2.2 总体分布的统计显着变化
      • 9.4.3 多维数据流中的罕见和新颖的类检测
        • 9.4.3.1 检测稀有类
        • 9.4.3.2 检测新类
        • 9.4.3.3 检测不经常重复的类
    • 9.5 结论和总结
    • 9.6 书目调查
    • 9.7 练习
  • 10 离散序列中的异常值检测
    • 10.1 简介
    • 10.2 位置异常值
      • 10.2.1 基于规则的模型
      • 10.2.2 马尔可夫模型
      • 10.2.3 效率问题:概率后缀树
    • 10.3 组合异常值
      • 10.3.1 组合异常值检测的原始模型
        • 10.3.1.1 特定于模型的组合问题
        • 10.3.1.2 更容易的特殊情况
        • 10.3.1.3 位置和组合异常值之间的关系
      • 10.3.2 基于距离的模型
        • 10.3.2.1 组合比较单位的异常分数
        • 10.3.2.2 对基于距离的方法的一些观察
        • 10.3.2.3 更简单的特例:短序列
      • 10.3.3 基于频率的模型
        • 10.3.3.1 基于频率的模型,具有用户指定的比较单元
        • 10.3.3.2 基于频率的模型,具有提取的比较单元
        • 10.3.3.3 组合来自比较单元的异常分数
      • 10.3.4 隐马尔可夫模型
        • 10.3.4.1 隐马尔可夫模型中的设计选择
        • 10.3.4.2 培训和预测与人力资源管理
        • 10.3.4.3 评估:计算观察到的序列的拟合概率
        • 10.3.4.4 说明:确定最可能的状态序列观察序列
        • 10.3.4.5 训练:Baum-Welch算法
        • 10.3.4.6 计算异常分数
        • 10.3.4.7 特例:短序列异常检测
      • 10.3.5 基于内核的方法
    • 10.4 复杂序列和场景
      • 10.4.1 多变量序列
      • 10.4.2 基于集合的序列
      • 10.4.3 在线应用:早期异常检测
    • 10.5 序列中的监督异常值
    • 10.6 结论和总结
    • 10.7 书目调查
    • 10.8 练习
  • 11 空间离群检测
    • 11.1 简介
    • 11.2 空间属性是对话
      • 11.2.1 基于邻域的算法
        • 11.2.1.1 多维方法
        • 11.2.1.2 基于图的方法
        • 11.2.1.3 多行为属性的情况
      • 11.2.2 自动回归模型
      • 11.2.3 使用变量图云可视化
      • 11.2.4 查找空间数据中的异常形状
        • 11.2.4.1 轮廓提取方法
        • 11.2.4.2 提取多维表示
        • 11.2.4.3 多维小波变换
        • 11.2.4.4 监督形状发现
        • 11.2.4.5 异常形状变化检测
    • 11.3 具有时空背景的时空异常值
    • 11.4 具有时间背景的空间行为:轨迹
      • 11.4.1 实时异常检测
      • 11.4.2 不寻常的轨迹形状
        • 11.4.2.1 分段分区方法
        • 11.4.2.2 基于平铺的变换
        • 11.4.2.3 基于相似性的变换
      • 11.4.3 轨迹中的监督异常值
    • 11.5 结论和总结
    • 11.6 书目调查
    • 11.7 练习
  • 12 图形和网络中的异常值检测
    • 12.1 简介
    • 12.2 异常值检测在许多小图中
      • 12.2.1 利用图形内核
    • 12.3 单个大图中的异常值检测
      • 12.3.1节点异常值
        • 12.3.1.1 利用Mahalanobis方法
      • 12.3.2 链接异常值
        • 12.3.2.1 矩阵分解方法
        • 12.3.2.2 光谱方法和嵌入
        • 12.3.2.3 聚类方法
        • 12.3.2.4 社区联系异常值
      • 12.3.3 子图异常值
    • 12.4 异常值分析中的节点内容
      • 12.4.1 共享矩阵分解
      • 12.4.2 关联特征与领带强度的相似性
      • 12.4.3 异构马尔可夫随机场
    • 12.5 基于变换的外部矩形在时间图中
      • 12.5.1 发现图流中的节点热点
      • 12.5.2 链路异常的流检测
      • 12.5.3 基于社区演化的异常值
        • 12.5.3.1 集成聚类维护与进化分析
        • 12.5.3.2 图形流中社区进化的在线分析
        • 12.5.3.3 图形范围
      • 12.5.4 基于最短路径距离变化的异常值
      • 12.5.5 矩阵分解和潜在嵌入方法
    • 12.6 结论和总结
    • 12.7 书目调查
    • 12.8 练习
  • 13 异常值分析的应用
    • 13.1 简介
    • 13.2 质量控制和故障检测应用
    • 13.3 金融应用
    • 13.4 Web日志分析
    • 13.5 入侵和安全应用
    • 13.6 医疗应用
    • 13.7 文字和社交媒体应用
    • 13.8 地球科学应用
    • 13.9 其他应用
    • 13.10 从业人员指南
      • 13.10.1 哪些无监督算法效果最好?
    • 13.11 从业人员资源
    • 13.12 结论和总结

results matching ""

    No results matching ""