本书详尽地阐述了数据挖掘与知识发现领域中的一些基本理论和研究方法。介绍了KDD与数据据挖掘的概念、数据挖掘对象、知识发现过程、研究方法以及相关研究领域和应用范围。作为知识发现的数据预处理工作,简要叙述了数据清理、数据约简、数据概念等级分层、多维数据模型等内容。书中较详细地介绍了粗糙集、模糊集、聚类分析、关联规则、人工神经网络、分类与预测等数据挖掘方法,最后还简要介绍了多媒体数据挖掘工作的有关进展。
本书可以作为计算机科学与技术专业和信息科学方向高年级本科生和研究生的教材或参考书,也可供有关科技人员学习参考。
第一章 绪论
1.1 引言
1.2 KDD与数据挖掘
1.2.1 KDD定义
1.2.2 KDD过程
1.2.3 数据库技术发展与数据挖掘
1.3 数据挖掘的对象与环境
1.3.1 数据与系统特征
1.3.2 数据结构
1.3.3 数据库系统
1.4 数据挖掘方法与相关领域
1.4.1 数据挖掘相关领域
1.4.2 粗糙集
1.4.3聚类
1.4.4 关联规则
决策树
1.4.6 模糊集
1.4.7规则归纳
1.4.8 进化计算
1.5 KDD系统与应用
本章小结
习题一
第二章 数据预处理与数据仓库
2.1 数据清理
2.1.1 填补空缺值
2.1.2 消除噪声数据
2.1.3 实现数据一致性
2. 2 数据集成与转换
2.2.1 数据集成
2.2.2 数据转换
2.3 数据归约与浓缩
2.3.1 数据立方体聚集
2.3.2 维归约
2.3.3 数据压缩
2.3.4数值归约
2.4概念分层
2.4.1 概念分层的概念
2.4.2 概念分层的类型
2.4.3 数值数据的概念分层与离散化
2.4.4 分类数据的概念分层
2.5 数据仓库与多维数据模型
2.5.1 数据仓库的概念
2.5.2 数据仓库中的数据组织
2.5.3数据立方体
2.5.4 多维数据库模式
2.6 数据仓库与数据挖掘
2.6.1 数据仓库应用
2.6.2 数据挖掘和数据仓库的关系
本章小结
习题二
第三章粗糙集
3.1 近似空间
3.1.1 近似空间与不可分辨关系
3.1.2 知识与知识库
3.2近似与粗糙集
3.2.1 近似与粗糙集的基本概念
3.2.2 粗糙集的基本性质
3.3 粗糙集的特征描述
近似精度
3.3.2 粗糙集隶属函数
3.3.3 拓扑特征
3.4知识约简
3.4.1 约简和核
3.4.2 相对约简和相对核
3.5 知识的依赖性
3.6信息系统
3.6.1 信息系统的定义
3.6.2 分辨矩阵与分辨函数
3.7决策表
3.8决策规则
3.9 扩展的粗糙集模型
3.9.1 可变精度粗糙集模型(VPRS)
3.9.2 相似模型
本章小结
习题三
第四章 模糊集
4.1 模糊集定义与隶属函数
4.1.1 模糊集定义与隶属函数
4.1.2 模糊集合的表示法
4.2 模糊集的基本运算
4.3 分解定理与扩展原理
4.4模糊集的特征
4.5模糊集的度量
4.5.1 模糊度
4.5.2 模糊集间的距离
4.5.3 模糊集的贴近度
4.6模糊关系
4.6.1 模糊关系定义
4.6.2 模糊关系的运算与性质
4.6.3 模糊等价关系与模糊相似关系
4.7模糊聚类分析
4.7.1模糊划分
4.7.2 模糊相似系数的标定方法
4.7.3 模糊聚类分析
4.7.4 传递闭包法
4.7.5最大树法
4.7.6 模糊C均值聚类(FCM)
4.8 模糊集与粗糙集
本章小结
习题四
第五章 聚类分析
5.1 聚类分析简介
5.2 聚类分析中的数据类型
5.3 划分方法
5.3.1 k-均值算法
5.3.2 k-中心点算法
5.3.3 EM算法
5.4层次方法
5.4.1 凝聚的和分裂的层次聚类
5.4.2 利用层次方法进行平衡迭
代归约和聚类
5.4了利用代表点聚类
5.4.4 采用动态建模技术的层次
聚类算法
5.5 基于密度的方法
5.6 基于网格的方法
5.7 基于模型的聚类方法
5.8孤立点分析
本章小结
习题五
第六章 关联规则
6.1 引言
6.2 关联规则基本模型
6. 2.. 1 关联规则基本模型
6.2.2 Apriori算法
6.2.3 LIG算法
6,2,4 FP算法
6.3 多级关联规则与多维关联规则
6.3.1 多级关联规则
6.3.2 多维关联规则
6.4 关联规则价值衡量与发展
6.4.1 规则价值衡量
6.4.2 基于约束的关联规则
6.4.3 关联规则新进展
本章小结
习题六
第七章 人工神经网络
7.1 人工神经元及人工神经网络模型
7.1.1 M-P模型
7.1.2 人工神经元的形式化描述
7.1.3 神经网络的分类
7.1.4 人工神经网络的学习方式
7.2前向神经网络
7.2.1 感知器
7.2.2 多层前向神经网络的BP算法
7.2.3 径向基函数神经网络
7.3 反馈神经网络
7.3.1 前向神经网络与反
馈神经网络的比较
7.3.2 反馈神经网络模型
7.3.3 离散型Hopfield神经网络
7.3.4连续型Hopfield神经网络
7.3.5 Boltzmann机
7.4 自组织竞争神经网络模型
7.5 基于人工神经网络的数据挖掘
本章小结
习题七
第八章 分类与预测
8.1 简介
8.2决策树
8.2.1,决策树学习
8.2.2决策树的剪枝
8.2.3 决策树算法的改进
8.2.4 决策树算法的可伸缩性
8.3 贝叶斯分类
8.3.1 贝叶斯公式
8.3.2 朴素贝叶斯分类
8.3.3 贝叶斯网络
8.3.4 学习贝叶斯网络
8.4基于遗传算法分类
8.4.1 遗传算法的发展
8.4.2 遗传算法的基本原理
8.4.3基本遗传算法
8.4.4 遗传算法的基本实现技才
8.5 分类法的评估
8.5.1 评估分类法的精度
8.5.2 提高分类法的精度
8.6 预测
8.6.1 时间序列预测模型 .
8.6.2 线性回归和多元回归
8.6.3 非线性回归
8.6.4 其他回归模型,
8.6.5 马尔可夫链
本章小结
习题八
第九章 多媒体数据挖掘
9.1 简介
9.2多媒体数据库
9.2.1 MM-DBMS体系结构
9.2.2 数据模型
9.2.3 MM-DBMS的功能
9.3 挖掘多媒体数据,
9.3.1概述
9.3.2文本挖掘
9.3.3 图像挖掘
9.3.4视频挖掘
9.3.5音频挖掘
9.3.6 复合类型数据的挖掘
本章小结
习题九
参考文献
名词索引
计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据量急剧增大。例如,NASA轨道卫星上的地球观测系统EOS每小时会向地面发回50GB的图像数据;世界上最大的数据仓库之一,美国零售商系统Wal-Mart每天会产生2亿左右的交易数据;人类基因组数据库项目已经搜集了数以GB计的人类基因编码数据;大型天文望远镜每年会产生不少于10TB的数据,等等。大量的信息在给人们提供方便的同时也带来一系列问题。由于信息量过大,超出了人们掌握、理解信息的能力,因而给正确运用信息带来了困难。人们意识到隐藏在大规模数据背后的更深层次、更重要的内容能够描述信息的整体特征,可以预测事物发展趋势。这些潜在信息在决策过程中具有重要的参考价值。为进一步提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase,简称KDD),以及相应的数据挖掘(Data Mining)理论和技术的研究。
所谓基于数据库的知识发现是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是整个KDD过程中的一个重要步骤,运用一些算法从数据库中提取用户感兴趣的知识。KDD一词首次出现在1989年,随后,很多学者在该领域开展研究工作。 目前,关于数据挖掘与知识发现的研究工作已经被众多领域关注,如信息管理、商业、医疗、过程控制、金融等领域。作为大规模数据库中先进的数据分析工具,数据挖掘已经成为数据库及人工智能领域的研究热点之一。
数据挖掘和知识发现是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性能计算、数据可视化等均与数据挖掘相关。本书全面系统地介绍了数据挖掘和知识发现领域的基本原理和研究方法,可以作为计算机科学与技术专业和信息科学方向高年级本科生和研究生的教材或参考书。第一章介绍了KDD与数据挖掘的概念、对象、过程、方法、相关领域和应用范围;第二章介绍了数据预处理和数据仓库技术,包括数据清理、数据约简、数据概念等级化分、多维数据模型等内容;第三章介绍粗糙集;第四章介绍模糊集;第五章介绍聚类分析,包括划分、层次、密度、网格、模型方法和孤立点分析等;第六章是关联规则,介绍关联规则基本模型和一些扩展模型;第七章介绍人工神经网络在知识发现中的运用;第八章是分类与预测,介绍决策树、贝叶斯分类、基于遗传算法的分类,讨论了分类精度和预测问题;第九章介绍了多媒体数据挖掘工作的有关进展。
1997年,吉林大学计算机学院的苑森淼教授建议作者在数据挖掘领域开展工作。几年来,作者在数据挖掘和知识发现领域先后承担了吉林省自然科学基金、国家自然科学基金等科研项目。在与研究生开展的讨论班中逐渐积累了本书的素材。在本书出版之际,向苑老师表示感谢。
特别感谢中国科学院计算技术研究所史忠植研究员,史老师在百忙中审阅了本书初稿,并在篇章总体结构和一些具体细节上给予指导,让作者受益匪浅。
本书由李雄飞、李军编著。宋海玉、李向群、陈鑫影、吴志辉和赵坤等参加了部分编写工作。由于水平有限,书中可能会有不足和遗漏,敬请读者和专家批评指正。