计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。
\r\n 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
\r\n
第1章 绪论\r\n第2章 有指导学习概述\r\n 2.1 引言\r\n 2.2 变量类型和术语\r\n 2.3 两种简单预测方法:最小二乘方和最近邻法\r\n 2.4 统计判决理论\r\n 2.5 高维空间的局部方法\r\n 2.6 统计模型、有指导学习和函数逼近\r\n 2.7 结构化回归模型\r\n 2.8 受限的估计方法类\r\n 2.9 模型选择和偏倚-方差权衡\r\n 文献注释\r\n 习题\r\n第3章 回归的线性方法\r\n 3.1 引言\r\n 3.2 线性回归模型和最小二乘方\r\n 3.3 从简单的一元回归到多元回归\r\n 3.4 子集选择和系数收缩\r\n 3.5 计算考虑\r\n 文献注释\r\n 习题\r\n第4章 分类的线性方法\r\n 4.1 引言\r\n 4.2 指示矩阵的线性回归\r\n 4.3 线性判别分析\r\n 4.4 逻辑斯缔回归\r\n 4.5 分离超平面\r\n 文献注释\r\n 习题\r\n第5章 基展开与正则化\r\n 5.1 引言\r\n 5.2 分段多项式和样条\r\n 5.3 过滤和特征提取\r\n 5.4 光滑样条\r\n 5.5 光滑参数的自动选择\r\n 5.6 无参逻辑斯缔回归\r\n 5.7 多维样条函数\r\n 5.8 正则化和再生核希尔伯特空间\r\n 5.9 小波光滑\r\n 文献注释\r\n 习题\r\n第6章 核方法\r\n 6.1 一维核光滑方法\r\n 6.2 选择核的宽度\r\n 6.3 IRp上的局部回归\r\n 6.4 IRp上结构化局部回归模型\r\n 6.5 局部似然和其他模型\r\n 6.6 核密度估计和分类\r\n 6.7 径向基函数和核\r\n 6.8 密度估计和分类的混合模型\r\n 6.9 计算考虑\r\n 文献注释\r\n 习题\r\n第7章 模型评估与选择\r\n 7.1 引言\r\n 7.2 偏倚、方差和模型复杂性\r\n 7.3 偏倚-方差分解\r\n 7.4 训练误差率的乐观性\r\n 7.5 样本内预测误差的估计\r\n 7.6 有效的参数个数\r\n 7.7 贝叶斯方法和BIC\r\n 7.8 最小描述长度\r\n 7.9 Vapnik-Chernovenkis维\r\n 7.10 交叉验证\r\n 7.11 自助法\r\n 文献注释\r\n 习题\r\n第8章 模型推理和平均\r\n 8.1 引言\r\n 8.2 自助法和极大似然法\r\n 8.3 贝叶斯方法\r\n 8.4 自助法和贝叶斯推理之间的联系\r\n 8.5 EM算法\r\n 8.6 从后验中抽样的MCMC\r\n 8.7 装袋\r\n 8.8 模型平均和堆栈\r\n 8.9 随机搜索:冲击\r\n 文献注释\r\n 习题\r\n第9章 加法模型、树和相关方法\r\n 9.1 广义加法模型\r\n 9.2 基于树的方法\r\n 9.3 PRIM——凸点搜索\r\n 9.4 MARS:多元自适应回归样条\r\n 9.5 分层专家混合\r\n 9.6 遗漏数据\r\n 9.7 计算考虑\r\n 文献注释\r\n 习题\r\n第10章 提升和加法树\r\n 10.1 提升方法\r\n 10.2 提升拟合加法模型\r\n 10.3 前向分步加法建模\r\n 10.4 指数损失函数和AdaBoost\r\n 10.5 为什么使用指数损失\r\n 10.6 损失函数和健壮性\r\n 10.7 数据挖掘的“现货”过程\r\n 10.8 例:垃圾邮件数据\r\n 10.9 提升树\r\n 10.10 数值优化\r\n 10.11 提升适当大小的树\r\n 10.12 正则化\r\n 10.13 可解释性\r\n 10.14 实例\r\n 文献注释\r\n 习题\r\n第11章 神经网络\r\n 11.1 引言\r\n 11.2 投影寻踪回归\r\n 11.3 神经网络\r\n 11.4 拟合神经网络\r\n 11.5 训练神经网络的一些问题\r\n 11.6 例:模拟数据\r\n 11.7 例:ZIP编码数据\r\n 11.8 讨论\r\n 11.9 计算考虑\r\n 文献注释\r\n 习题\r\n第12章 支持向量机和柔性判别\r\n 12.1 引言\r\n 12.2 支持向量分类器\r\n 12.3 支持向量机\r\n 12.4 线性判别分析的推广\r\n 12.5 柔性判别分析\r\n 12.6 罚判别分析\r\n 12.7 混合判别分析\r\n 12.8 计算考虑\r\n 文献注释\r\n 习题\r\n第13章 原型方法和最近邻\r\n 13.1 引言\r\n 13.2 原型方法\r\n 13.3 K-最近邻分类器\r\n 13.4 自适应的最近邻方法\r\n 13.5 计算考虑\r\n 文献注释\r\n 习题\r\n第14章 无指导学习\r\n 14.1 引言\r\n 14.2 关联规则\r\n 14.3 聚类分析\r\n 14.4 自组织映射\r\n 14.5 主成分、曲线和曲面\r\n 14.6 独立成分分析和探测性投影寻踪\r\n 14.7 多维定标\r\n 文献注释\r\n 习题\r\n术语表\r\n参考文献\r\n
Trevor Hastie,Robert Tibshirani和Jerome Friedman都是斯坦福大学统计学教授,并在这个领域做出了杰出的贡献。Hastie和Tibshirani提出了广义和加法模型,并出版专著“Generalized Additive Models”。Hastie的主要研究领域为:非参数回归和分类、统计计算以及生物信息学、医学和工业的特殊数据挖掘问题。他提出主曲线和主曲面的概念,并用S-PLUS编写了大量统计建模软件。Tibshirani的主要研究领域为:应用统计学、生物统计学和机器学习。他提出了套索的概念,还是“An Introduction to the Bootstrap”一书的作者之一。Friedman是CART、MARS和投影寻踪等数据挖掘工具的发明人之一。他不仅是位统计学家,而且是物理学家和计算机科学家,先后在物理学、计算机科学和统计学的一流杂志上表发论文80余篇。
我们被信息淹没,但却缺乏知识。
——Rutherford D.Roger
统计学领域不断受到来自科学界和产业界问题的挑战。早期,这些问题通常来自农业和工业实验,且规模相对较小。随着计算机和信息时代的到来,统计问题的规模和复杂性都有了急剧的增加。数据存储、组织和检索领域的挑战导致一个新领域“数据挖掘”的产生;生物和医学方面的统计和计算问题开创了“生物信息学”。许多领域都产生了海量数据,而统计学家的工作就是理解这些数据:提取重要的模式和趋势,理解这些数据“说瞬么”。我们称此为:从数据中学习。
从数据中学习的难题引发了统计科学的革命。由于计算扮演了重要角色,毫不奇怪,许多成果都是由计算机科学和工程学等其他领域的研究者做出的。
我们考虑的学习问题可以粗略地分为有指导的和无指导的。对于有指导学习,目标是根据一些输入度量预测一个结果度量值。对于无指导学习,没有结果度量,其目标是描述输入度量集合中的关联和模式。
在本书中,我们试图将学习领域中许多重要的新思想汇集在一起,并且在统计学的框架下解释它们。尽管有些数学细节是必要的,但我们强调的是方法和它们的概念基础,而不是理论性质。我们希望本书不仅能吸引统计学家,而且能吸引更广泛领域的研究者和实践者。
正如从统计学之外的研究者那里学到了许多知识一样,我们的统计学观点也可以帮助其他人更好地理解学习的不同方面。
任何事物都没有真正正确的解释,解释是为人们理解而服务的一种媒介。解释的价值是使得他人可以更富有成果地思考。
——Andreas Buja
这里要向为本书的构思和完成做出贡献的所有人员表示感谢。David Andrews,Leo Breiman,Andreas Buja,John Chambers,Bradley Efron,Geoffrey Hinton,Werner Stuetzle和John Tukey对我们的工作具有重要影响。Balasubramanian Narasimhan为我们提出了许多建议,在一些计算问题上给予了帮助,并维护了一个良好的计算环境。Shin-Ho Bang帮我们绘制了大量的图形。Lee Wilkinson为彩图绘制提出了宝贵意见。
——Trevor Hastie
Robert Tibshirani
Jerome Friedman
斯坦福,加利福尼亚
2001年5月
恬静的统计学家改变了我们的世界;不是通过发现新的事实或者开发新技术,而是通过改变我们的推理、实验和观点的形成方式……
——Ian Hacking