本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性教材。\r\n\r\n 第1章从不同的角度对数据挖掘进行了介绍。第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据挖掘的数据预处理所涉及到的概念及算法。第4章~第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。\r\n\r\n 本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。\r\n
\r\n
前言 \r\n\r\n 第1章 导论 \r\n\r\n 1. 1 数据挖掘的社会需求 \r\n\r\n 1. 2 什么是数据挖掘 \r\n\r\n 1. 3 数据挖掘的数据来源 \r\n\r\n 1. 4 数据挖掘的分类 \r\n\r\n 1. 4. 1 分类分析(Classification Analysis) \r\n\r\n 1. 4. 2 聚类分析(Clustering Analysis) \r\n\r\n 1. 4. 3 关联分析(Association Analysis) \r\n\r\n 1. 4. 4 序列分析及时间序列(Sequence Analysis and Time Sequence) \r\n\r\n 1. 4. 5 孤立点分析(Outlier Analysis) \r\n\r\n 1. 4. 6 其他分析 \r\n\r\n 1. 5 数据挖掘的体系结构与运行过程 \r\n\r\n 1. 5. 1 数据挖掘的体系结构 \r\n\r\n 1. 5. 2 数据挖掘的步骤 \r\n\r\n 1. 5. 3 实例 \r\n\r\n 1. 6 数据挖掘与其他相关技术 \r\n\r\n 1. 6. 1 数据挖掘与数据库中的知识发现 \r\n\r\n 1. 6. 2 数据挖掘与OLAP \r\n\r\n 1. 6. 3 数据挖掘与人工智能和机器学习 \r\n\r\n 1. 6. 4 数据挖掘与统计学 \r\n\r\n 1. 6. 5 数据挖掘与客户关系管理 \r\n\r\n 1. 6. 6 软硬件发展对数据挖掘的影响 \r\n\r\n 1. 6. 7 XML与面向Web的数据挖掘技术 \r\n\r\n 1. 7 数据挖掘工具的评价标准 \r\n\r\n 1. 8 数据挖掘的应用 \r\n\r\n 1. 9 数据挖掘的要求及挑战 \r\n\r\n 第2章 数据仓库技术 \r\n\r\n 2. 1 数据仓库概述 \r\n\r\n 2. 1. 1 数据仓库的定义 \r\n\r\n 2. 1. 2 数据仓库查询系统 \r\n\r\n 2. 1. 3 OLTP与OLAP \r\n\r\n 2. 1. 4 数据仓库与数据集市 \r\n\r\n 2. 1. 5 数据仓库系统的结构 \r\n\r\n 2. 1. 6 数据仓库中的元数据管理 \r\n\r\n 2. 2 联机分析处理(OLAP) \r\n\r\n 2. 2. 1 OLAP的功能及体系结构 \r\n\r\n 2. 2. 2 OLAP数据组织模型 \r\n\r\n 2. 2. 3 数据仓库的建模 \r\n\r\n 2. 2. 4 OLAP的Web结构 \r\n\r\n 2. 2. 5 OLAP数据查询机制 \r\n\r\n 2. 3 多维数据模型 \r\n\r\n 2. 3. 1 数据模型 \r\n\r\n 2. 3. 2 代数操作 \r\n\r\n 2. 3. 3 数据集合维护操作 \r\n\r\n 2. 4 海威数据仓库系统简介 \r\n\r\n 2. 4. 1 Highway Decision Center V1. 0系统结构 \r\n\r\n 2. 4. 2 Highway Decision Center V2. 0系统结构 \r\n\r\n 2. 4. 3 海威数据仓库网络结构 \r\n\r\n 2. 5 数据仓库应用举例 \r\n\r\n 2. 5. 1 信用卡资信分析 \r\n\r\n 2. 5. 2 贷款分析 \r\n\r\n 第3章 数据挖掘中的数据预处理 \r\n\r\n 3. 1 概论 \r\n\r\n 3. 1. 1 预处理的基本功能 \r\n\r\n 3. 1. 2 预处理的主要方法 \r\n\r\n 3. 2 数字属性的离散化与特征选择 \r\n\r\n 3. 2. 1 Chi2算法简介 \r\n\r\n 3. 2. 2 举例 \r\n\r\n 3. 2. 3 讨论 \r\n\r\n 3. 3 数据的采样 \r\n\r\n 3. 3. 1 数据挖掘不同领域中的采样 \r\n\r\n 3. 3. 2 数据挖掘中的采样方法 \r\n\r\n 3. 3. 3 静态与动态采样 \r\n\r\n 3. 4 概念分层 \r\n\r\n 3. 4. 1 数据库中的面向属性的归纳 \r\n\r\n 3. 4. 2 概念分层的动态提炼 \r\n\r\n 3. 4. 3 针对数字属性的概念分层的自动产生 \r\n\r\n 第4章 关联规则 \r\n\r\n 4. 1 关联规则挖掘的基本概念 \r\n\r\n 4. 2 关联规则的发现算法 \r\n\r\n 4. 2. 1 发现大的项集 \r\n\r\n 4. 2. 2 算法Apriori \r\n\r\n 4. 2. 3 算法AprioriTid \r\n\r\n 4. 2. 4 算法AprioriHybrid \r\n\r\n 4. 2. 5 生成规则 \r\n\r\n 4. 3 多值属性关联规则 \r\n\r\n 4. 3. 1 基本概念 \r\n\r\n 4. 3. 2 MAQA算法 \r\n\r\n 4. 3. 3 确定多值属性划分的聚类算法CP \r\n\r\n 4. 3. 4 合并数量属性的相邻值 \r\n\r\n 4. 4 多层关联规则挖掘 \r\n\r\n 4. 4. 1 概念层次(Conceptual Hierarchies) \r\n\r\n 4. 4. 2 同层(Same Hierarchy)关联规则挖掘 \r\n\r\n 4. 4. 3 混合层(Mixed Hierarchies)关联规则挖掘 \r\n\r\n 4. 4. 4 交叉层(Cross Hierarchies)关联规则挖掘 \r\n\r\n 4. 5 约束性关联规则发现方法及算法 \r\n\r\n 4. 5. 1 问题陈述 \r\n\r\n 4. 5. 2 过滤事务数据库 \r\n\r\n 4. 5. 3 算法Separate \r\n\r\n 4. 5. 4 扩展的约束条件 \r\n\r\n 4. 6 关联规则的增量式更新算法 \r\n\r\n 4. 6. 1 IUA算法 \r\n\r\n 4. 6. 2 PIUA算法 \r\n\r\n 第5章 数据分类 \r\n\r\n 5. 1 决策树基本算法 \r\n\r\n 5. 1. 1 决策树生成算法 \r\n\r\n 5. 1. 2 决策树的修剪 \r\n\r\n 5. 2 决策树ID3 \r\n\r\n 5. 2. 1 基本概念 \r\n\r\n 5. 2. 2 定义 \r\n\r\n 5. 2. 3 ID3算法 \r\n\r\n 5. 3 决策树学习算法C4. 5 \r\n\r\n 5. 3. 1 使用增益比例 \r\n\r\n 5. 3. 2 处理未知值的训练样本 \r\n\r\n 5. 3. 3 有连续值的属性 \r\n\r\n 5. 3. 4 规则的产生 \r\n\r\n 5. 3. 5 交叉验证(Cross Validation) \r\n\r\n 5. 3. 6 C4. 5的工作流程 \r\n\r\n 5. 4 分类与回归树(CART) \r\n\r\n 5. 4. 1 基本定义 \r\n\r\n 5. 4. 2 构建树算法 \r\n\r\n 5. 4. 3 修剪(Pruning) \r\n\r\n 5. 4. 4 决策树讦估(Estimation) \r\n\r\n 5. 4. 5 内存管理及时间复杂性分析 \r\n\r\n 5. 5 SLIQ:一种快速可扩展的分类算法 \r\n\r\n 5. 5. 1 扩展性问题 \r\n\r\n 5. 5. 2 SLIQ分类器 \r\n\r\n 5. 5. 3 数据结构及算法 \r\n\r\n 5. 6 SPRINT:数据挖掘中一种可扩展的并行分类器 \r\n\r\n 5. 6. 1 串行算法 \r\n\r\n 5. 6. 2 分类并行化 \r\n\r\n 第6章 多维访问与数据可视化 \r\n\r\n 6. 1 多维访问方法 \r\n\r\n 6. 1. 1 引言 \r\n\r\n 6. 1. 2 空间数据的结构 \r\n\r\n 6. 1. 3 基本的数据结构 \r\n\r\n 6. 2 R-树及R*树:空间搜索的动态索引树 \r\n\r\n 6. 2. 1 R-树的索引结构 \r\n\r\n 6. 2. 2 搜索及更新 \r\n\r\n 6. 2. 3 Choose Subtree算法 \r\n\r\n 6. 2. 4 R*树的分裂 \r\n\r\n 6. 2. 5 强迫重插入 \r\n\r\n 6. 2. 6 R*树:一个有效的点存取方法 \r\n\r\n 6. 3 多维数据的平行坐标表示法 \r\n\r\n 6. 4 圆形分段及基于相似性的排列 \r\n\r\n 6. 4. 1 圆形分段:一种大数据量多维数据可视化技术 \r\n\r\n 6. 4. 2 基于相似性原理的多维数据排列的可视化技术 \r\n\r\n 第7章 聚类分析 \r\n\r\n 7. 1 基础知识 \r\n\r\n 7. 1. 1 距离与相似系数 \r\n\r\n 7. 1. 2 聚类的特征与聚类间的距离 \r\n\r\n 7. 2 分层聚类法 \r\n\r\n 7. 2. 1 最短距离法 \r\n\r\n 7. 2. 2 最长距离法 \r\n\r\n 7. 2. 3 中间距离法 \r\n\r\n 7. 2. 4 其他方法 \r\n\r\n 7. 3 分割聚类算法CLARANS \r\n\r\n 7. 3. 1 PAM算法 \r\n\r\n 7. 3. 2 CLARA算法 \r\n\r\n 7. 3. 3 基于随机搜索的聚类算法CLARANS \r\n\r\n 7. 4 聚类算法k-means及k-modes \r\n\r\n 7. 4. 1 k-means算法 \r\n\r\n 7. 4. 2 改进的k-means算法 \r\n\r\n 7. 4. 3 大型离散数据集的快速聚类算法 \r\n\r\n 7. 5 高维度数据的自动子空间聚类算法CLIQUE \r\n\r\n 7. 5. 1 问题描述 \r\n\r\n 7. 5. 2 算法 \r\n\r\n 7. 6 OPTICS:识别聚类结构的对象排序 \r\n\r\n 7. 6. 1 根据聚类结构对数据库排序 \r\n\r\n 7. 6. 2 识别聚类结构 \r\n\r\n 7. 6. 3 自动化技术 \r\n\r\n 7. 7 利用分层的平衡迭代归约及聚类 \r\n\r\n 7. 7. 1 聚类特征(Clustering Feature)及CF-树 \r\n\r\n 7. 7. 2 CF-树重建算法 \r\n\r\n 7. 7. 3 BIRCH聚类算法 \r\n\r\n 7. 7. 4 阶段1的算法 \r\n\r\n 7. 7. 5 阶段2的算法 \r\n\r\n 7. 7. 6 阶段3的算法 \r\n\r\n 7. 7. 7 阶段4的算法 \r\n\r\n 7. 7. 8 内存管理及时间复杂性分析 \r\n\r\n 7. 8 大型数据集中孤立点挖掘的高效算法 \r\n\r\n 7. 8. 1 问题定义 \r\n\r\n 7. 8. 2 嵌入式循环及基于索引的算法 \r\n\r\n 7. 8. 3 基于分区的算法 \r\n\r\n 第8章 序列模式与时间序列 \r\n\r\n 8. 1 序列模式的数据挖掘 \r\n\r\n 8. 1. 1 基本定义 \r\n\r\n 8. 1. 2 序列模式的发现 \r\n\r\n 8. 1. 3 序列阶段 \r\n\r\n 8. 2 时序数据库中相似序列的挖掘 \r\n\r\n 8. 2. 1 基于ARMA模型的序列匹配方法 \r\n\r\n 8. 2. 2 基于离散傅里叶变换的时间序列相似性快速查找 \r\n\r\n 8. 2. 3 基于规范变换的查找方法 \r\n\r\n 8. 3 在数据库中发现具有时态约束的关联规则 \r\n\r\n 8. 3. 1 问题描述 \r\n\r\n 8. 3. 2 带时态约束的关联规则发现算法 \r\n\r\n 第9章 开放式的数据挖掘系统 \r\n\r\n 9. 1 OLE DB For DataMining \r\n\r\n 9. 1. 1 OLE DB For DataMining简介 \r\n\r\n 9. 1. 2 OLE DB For DataMining编程基础 \r\n\r\n 9. 2 可预测模型描述语言(PMML) \r\n\r\n 9. 2. 1 简介 \r\n\r\n 9. 2. 2 一个简单的PMML例子 \r\n\r\n 9. 3 产品简介 \r\n\r\n 9. 3. 1 背景 \r\n\r\n 9. 3. 2 产品目标 \r\n\r\n 9. 4 系统结构 \r\n\r\n 9. 4. 1 用于OLAP系统的数据挖掘应用系统结构 \r\n\r\n 9. 4. 2 基于B/S结构的应用框架 \r\n\r\n 9. 4. 3 逻辑模块结构设计 \r\n\r\n 9. 5 Web服务技术 \r\n\r\n 9. 6 输入和输出 \r\n\r\n 9. 6. 1 系统输入:OLTP. OLAP及其他 \r\n\r\n 9. 6. 2 利用可视化技术构造可理解的知识展现 \r\n\r\n 9. 7 应用模式 \r\n\r\n 9. 8 现状与前景 \r\n\r\n 参考文献 \r\n
\r\n
数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科, 涉及到数据库. 统计学. 人工智能与机器学习等多个领域. 计算机的应用普及产生了大量的数据, 数据挖掘就是利用上述学科的技术进行大数据量的处理. 数据挖掘的应用领域非常宽广, 从农业生产的预测到基因分类, 从化学分子结构的识别到NBA教练临场更换队员, 从信用卡欺诈到税务稽查, 数据挖掘技术对未来社会的各个领域将起到越来越主要的作用.
我国的数据挖掘技术一方面是科研机构停留在学术研究上, 另一方面是利用国外公司的软件产品解决具体问题. 为了提高学术水平, 科研人员只得进行高水平但很难实用的算法研究:为了提高经济效益, 销售国外软件公司的产品最稳健. 但是, 数据挖掘技术在解决实际问题的过程中需要的是成熟技术加针对具体问题的修正, 因此, 国内迫切需要对国外十余年的数据挖掘具体技术进行剖析, 在掌握核心技术的前提下才能真正赶超. 本书的背景是在我们三年前开始开发数据仓库产品及对数据挖掘技术进行了将近两年的跟踪的基础上, 根据大量参考文献及内部技术报告, 结合研究生的教学工作完成的. 目前, 我们已完成了开放式的数据挖掘平台及部分算法的实现.
本书的使用对象是在校高年级的本科生. 研究生及各个领域的高级软件开发人员, 书中介绍了大量的数据挖掘算法, 各个算法具有很强的实用性. 本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性书籍.
本书共分9章. 第1章对数据挖掘从各个角度进行了剖析, 从社会需求开始对数据挖掘的概念. 数据挖掘的数据来源. 数据挖掘的分类. 体系结构. 运行过程. 数据挖掘与其他领域之间的关系. 评价标准及未来的发展方向进行了全面的介绍.
第2章对数据挖掘的孪生兄弟——数据仓库技术进行了简单的介绍, 由于数据挖掘技术的一个重要发展方向就是嵌入到数据仓库中, 即数据挖掘所使用的大数据集直接来自于数据仓库. 在简单地回顾了数据仓库技术之后, 给出了一种多维数据的模型, 这是实施联机分析处理(OLAP)的一种关键技术, 同时简单介绍了我们自行开发的OLAP展示工具的体系结构, 并介绍了数据仓库在银行的应用案例.
第3章讲述的是数据挖掘的数据预处理所涉及到的概念及算法. 干净而合乎要求的数据是数据挖掘成功应用的基础, 对数据进行整理是一项枯燥而艰苦的工作. 本章在介绍了数据挖掘的数据准备工作之后, 给出了一种常用的数字属性的离散化及属性选择算法. 数据挖掘虽然可以解决大数据集的问题, 但在分布完全相同的前提下, 算法处理十万条记录与百万条记录的时间代价是完全不同的. 数据采样技术同样有多种方法, 每种方法适合解决的问题是不同的. 本章最后一部分介绍了数据抽象问题, 即如何将大量的数据进行概念提升.
第4章对关联分析给出了详细的算法. 无论是在国内还是在国外, 关联分析是数据挖掘发展的先行者, 并且几乎与其他学科没有交叉. Apriori算法是关联分析的基础, 多值属性的关联分析所关心的问题是如何将连续数值的关联分析转化为布尔值, 多层关联分析与约束性的关联分析都是解决实用问题的算法, 本章最后给出了增量的关联分析解决算法.
第5章讲述了数据分类, 给出了分类的各种基本算法, 包括国外数据挖掘最早的ID3算法及C4. 5算法. 对来自统计学的CART算法给出了详细的描述, 同时对如何解决大数据集问题的SLIQ算法及并行问题的SPRINT分类器也给出了详细的说明.
第6章讲述了多维方向与数据可视化. 它虽然不是数据挖掘的直接内容, 但聚类的多种算法都用到了多维数据访问的技术. 而空间数据挖掘的基础则是多维访问. 数据可视化技术中对数据的观察进行了阐述.
第7章给出了聚类的多种实用算法及基础算法. 聚类算法采用了多种技术, 用途非常广泛, 本章给出了大量的详细的算法. 分层的聚类来自于统计学, 虽然不能解决大数据量问题, 但作为基础还是进行了详细的说明. 分区算法介绍了PAM. CLARA及CLARANS算法, 其中对CLARANS算法进行扩充, 可以用于空间数据挖掘. k-means算法是最常见也是最实用的算法, 特别介绍了处理离散数据的聚类算法k-modes. OPTICS是一种复杂的算法, 用途也最广泛. BIRCH的特色是只需访问一次数据库, 对该算法给出了详细的描述. 最后, 对用途广泛的孤立点问题给出了最先进的算法.
第8章介绍了序列模式及时间序列. 序列模式给出了最早也是最实用的算法. 时间序列只是介绍了概貌, 没有给出具体的算法, 因为时间序列本身就是一门交叉学科.
第9章介绍了我们开发的开放式的数据挖掘平台, 限于篇幅只是给出了体系结构, 对数据挖掘平台中所用的OLE DB For DataMining及可预测模型描述语言PMML也进行了简单的介绍.
书中的第1章. 第2章和第7章由邵峰晶教授编写, 其余章节由于忠清研究员编写. 在本书的编写过程中得到了南京大学徐洁磐教授. 北京大学的邵维忠教授及青岛市副市长马论业教授的多次指导, 在此表示感谢. 青岛海尔青大海威软件公司的刘志强. 林永及贾胜中三位工程师在海威数据仓库与数据挖掘软件及资料方面给予了大力支持, 李洁小姐在文字及图形的整理方面做了大量的工作, 在此一并表示谢意.
由于时间仓促, 书中的错误与不足之处在所难免, 敬请读者批评指正.
作者
2003年6月