本书作为一本专家级指南,全面介绍了SQL Server2005中数据挖掘的功能,并且对这些功能的应用作了较为详尽的讲述。书中不但讲述了数据挖掘的核心概念,还讲述了数据挖掘的最新发展趋势,并给出了一些数据挖掘的最佳实践。
第1章 数据挖掘导论 \r\n 1.1 什么是数据挖掘\r\n 1.2 数据挖掘解决的商业问题\r\n 1.3 数据挖掘的任务 \r\n 1.3.1 分类\r\n 1.3.2 聚类\r\n 1.3.3 关联\r\n 1.3.4 回归\r\n 1.3.5 预测\r\n 1.3.6 序列分析\r\n 1.3.7 偏差分析\r\n 1.4 数据挖掘技术\r\n 1.5 数据流\r\n 1.6 数据挖掘项目的生命周期 \r\n 1.6.1 第1步:数据收集\r\n 1.6.2 第2步:数据清理和转换\r\n 1.6.3 第3步:模型构建\r\n 1.6.4 第4步:模型评估\r\n 1.6.5 第5步:报告\r\n 1.6.6 第6步:预测(评分)\r\n 1.6.7 第7步:应用集成\r\n 1.6.8 第8步:模型管理\r\n 1.7 数据挖掘当前市场与主要厂商\r\n 1.7.1 数据挖掘市场的大小\r\n 1.7.2 主要生产厂商和产品\r\n 1.8 目前存在的问题及挑战\r\n 1.9 数据挖掘标准\r\n 1.10 OLE DB for DM规范和XML for Analysis规范\r\n 1.10.1 用于数据挖掘的SQL/Multimedia\r\n 1.10.2 Java数据挖掘API\r\n 1.10.3 预测模型标记语言\r\n 1.10.4 Crisp-DM模型 \r\n 1.10.5 公共仓库元数据\r\n 1.11 数据挖掘的新趋势\r\n 1.12 本章小结\r\n第2章 OLE DB for DM规范\r\n 2.1 OLE DB介绍\r\n 2.2 为什么使用OLE DB进行数据挖掘\r\n 2.3 OLE DB for DM规范中的基本概念\r\n 2.3.1 事例\r\n 2.3.2 事例键 \r\n 2.3.3 嵌套健\r\n 2.3.4 事例表和嵌套表\r\n 2.3.5 标量列和表列\r\n 2.3.6 数据挖掘模型\r\n 2.3.7 模型创建\r\n 2.3.8 模型训练\r\n 2.3.9 模型预测\r\n 2.4 DMX\r\n 2.4.1 数据挖掘的3个步骤\r\n 2.4.2 预测函数\r\n 2.4.3 单例查询\r\n 2.4.4 仅仅使用内容进行预测\r\n 2.4.5 钻取模型的内容\r\n 2.4.6 内容查询\r\n 2.5 理解模式行集\r\n 2.5.1 Mining-Services模型行集\r\n ……\r\n第3章 实践SQL Server数据挖掘\r\n第4章 Microsoft贝叶斯算法\r\n第5章 Microsoft决策树算法\r\n第6章 Micrsosft时序算法\r\n第7章 Micrsosft聚类算法介绍\r\n第8章 Microsoft序列聚类算法\r\n第9章 Microsoft关联规则算法\r\n第10章 Microsoft神经网络算法\r\n第11章 挖掘OLAP立方体\r\n第12章 SQL Server集成服务数据挖掘\r\n第13章 SQL Server数据挖掘的体系结构\r\n第14章 SQL Server数据挖掘编程\r\n第15章 实现一个Web交叉销售应用程序\r\n第16章 使用Microsoft进行高级预测\r\n第17章 扩展SQL Server数据挖掘\r\n第18章 总结与其他资源\r\n附录A 导入数据集\r\n附录B 支持的VBA函数和Excel函数\r\n附录C 学习资源
译 者 序
存储技术的迅速发展,特别是硬件价格的下降,使得数据的积累速度不断提高,面对日益庞大的数据资源,我们迫切需要强有力的工具来挖掘其中有用的信息。Microsoft最新的数据库平台SQL Server 2005中的数据挖掘组件是数据挖掘工具的典型代表。
SQL Server 2000中包括的数据挖掘算法只有决策树算法和聚类算法,与之相比,SQL Server 2005中引入了多个新的数据挖掘算法,包括贝叶斯算法、时间序列算法、序列聚类算法、关联规则算法和神经网络算法。与传统数据挖掘工具相比,SQL Server 2005数据挖掘功能具备许多的优势,SQL Server 2005数据挖掘功能与所有SQL Server产品实现了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server 2005数据挖掘功能具有易用性、可伸缩性和可扩展性等特点,同时它包含简单而丰富的API。
从SQL Server 2000到SQL Server2005,经历5年SQL Server数据挖掘的功能实现了一个跨跃式的发展,可谓“五年磨一剑”,也正是本书的ZhaoHui Tang和Jamie MacLennan两位作者带领他们的团队紧密合作的顶峰。对于本书讲述算法的每一章(包括4、5、6、7、8、9、10章),作者不仅对每一个算法进行了详细的讲述,还在每一章的引言部分给您描述本章算法能应用的一个实际场景,很容易吸引读者往下阅读。
我们作为数据挖掘的研究者,在翻译SQL Server 2005数据挖掘时,发觉在SQL Server 2005中包含的数据挖掘算法是如此之多,以至于超过了SAS、SPSS和IBM的Intelligent Miner等数据挖掘工具。同时我们作为数据挖掘的工作者,在使用SQL Server 2005进行数据挖掘的同时,切身体会到了SQL Server 2005数据挖掘功能与所有SQL Server产品实现集成给我们的数据挖掘工作带来的便利,以及它的易用性、可伸缩性和可扩展性。
正如本书前言所述,本书对于使用SQL Serve 2005进行数据挖掘的用户很有用,可谓及时性、实用性、可靠性集于一体。其中,第1章对数据挖掘进行了一个基本的介绍,第2章讲述了OLE DB for DM规范,第3章讲述了如何使用SQL Server 2005的数据挖掘工具,第4章到第10章每一章讲述了一个数据挖掘算法,第11章讲述了如何对OLAP立方体进行数据挖掘,第12章讲述了如何使用SSIS,第13章和第14章对数据挖掘的体系结构和API进行了讲述,第15章实现了一个Web交叉销售应用程序,第16章讲述了如何使用Microsoft Excel进行高级的预测,第17章讲述了有关扩展SQL Server数据挖掘的知识,第18章对本书以及SQL Server 2005中数据挖掘的功能进行了总结,以及给出了一些附加资源。附录A描述了本书使用的4个数据集以及如何导入这些数据集;附录B描述了SQL Server 2005支持的VBA函数和Excel函数。对于打算采用本书作为教材的老师,则建议您讲述第1章到第10章,以及第15章,如果时间允许,您可以讲述第11、12、17章,对其他章感兴趣的学生可以自学。
译者
2006年5月于国防科技大学
ZhaoHui Tang是Microsoft SQL Server数据挖掘团队的项目经理。Jamie Maclennan是SQL Server数据挖掘引擎开发团队的开发组长。Zhaohui和Jamie是SQL Server数据挖掘组件的核心设计者,他们不仅经常在大型的数据库和数据挖掘会议上作报告,而且还在学术和行业博物上发表很多有关SQL Server数据挖掘方面的文章。
前 言
数据库系统在过去的20年当中取得了巨大的成功。越来越多的数据被收集并且存储在数据库中。一个数据库拥有海量的数据是很平常的事。在这些数据库中找到有用的信息已经成为许多企业面临的重点问题;数据挖掘作为一个挖掘这些信息的关键组件越来越受到人们的重视。数据挖掘算法和可视化工具适用于挖掘数据中的重要模式,并且提供有价值的预测。这种技术实质上适用于各行各业,包括银行、电信、制造业、营销和电子商务。
在SQL Server 2000中引入了数据挖掘算法和可视化工具。从此以后,大多数关系数据库系统包含了数据挖掘的功能。在将数据挖掘技术与数据库技术进行集成方面,SQL Server 2005中的数据挖掘功能实现了一个跨越式的发展,也正是SQL Server产品团队和Microsoft Research 5年来紧密合作的一个巅峰。来自这两个组织的项目人员和研究人员为SQL Server共同开发了经典的、最新的和前沿的数据挖掘工具。本书作者,ZhaoHui Tang和Jamie MacLennan,是这两个组织合作的重要驱动者。
对于使用SQL Server 2005进行数据挖掘的用户而言,本书将成为他们非常宝贵的参考手册。作者阐述了每个数据挖掘算法的基本原理和各种可视化工具,并且提供了实用的示例。我确信大多数数据库开发人员、数据库管理人员、IT专业人员和数据挖掘方面的学生都会从本书中获益。
David Heckerman
Research Manager
Microsoft Research, Redmond
无封面