本书是著名数据仓库畅销书作者Ralph Kimball的著名作品,在世界各地畅销不衰。这是目前惟一一本从技术和管理两个角度介绍了使数据仓库项目获得成功所必备的各种知识和经验教训的专著,这些内容都是作者自1982年以来在从事数以百计的数据仓库安装和咨询任务过程中不断积累总结出来的。书末的两个附录中提供了大量的框架、任务、模板以及生动详实的样例(具体内容见本书配套光盘),所有这些都使本书别具一格。全书主题广泛,思想深刻,内容详尽,图文并茂。
本书不仅是现代信息系统开发人员的重要指南,而且是所有面向数据仓库项目的设计、开发、管理和咨询人员的高级参谋,并且适合信息管理与信息系统、计算机应用、电子商务等专业的高校师生作为教学参考用书,还可供从事传统数据库系统工作的技术人员参考阅读。
第1章 数据仓库的基本组成1
1.1 数据仓库的基本组成要素1
1.2 数据仓库基本过程10
1.3 有关数据仓库的大讨论
1.3.1 数据仓库建模
1.3.2 数据集市与数据仓库
1.3.3 分布式与集中式数据仓库
小结
第一部分 项目管理与需求
第2章 业务维生命周期
2.1 生命周期演化
2.2 生命周期方法
2.2.1 项目规划
2.2.2 业务需求定义
2.2.3 数据轨迹:维度建模
2.2.4 数据轨迹:物理设计
2.2.5 数据轨迹:数据登台设计与开发
2.2.6 技术轨迹:技术结构设计
2.2.7 技术轨迹:产品选择与安装
2.2.8 应用轨迹:最终用户应用规范
2.2.9 应用轨迹:最终用户应用开发
2.2.10 部署
2.2.11 维护与增长
2.2.12 项目管理
2.3 业务维生命周期使用指南
2.4 业务维生命周期指示标记与浏览帮助
小结
第3章 项目规划与管理
3.1 项目定义
3.1.1 建设数据仓库应做的准备工作
3.1.2 “最后检验”准备是否就绪
3.1.3 评价影响准备就绪的因素
3.1.4 分析准备状态是否不足的方法
3.1.5 确定初步范围
3.1.6 构造业务的合理性证明
3.2 项目规划
3.2.1 建立项目标识
3.2.2 组建项目组
3.2.3 制定项目计划
3.3 项目管理
3.3.1 举行项目小组启动会议
3.3.2 监控项目状态
3.3.3 维护项目计划和项目文档
3.3.4 管理项目范围
3.3.5 制定有关管理期望的交流计划
小结
第4章 收集项目需求
4.1 定义项目需求的各种方法
4.2 访谈准备
4.3 准备合适的访谈者
4.4 进行访谈
4.5 开始访谈
4.6 结束访谈
4.7 对访谈结果进行审查
4.8 准备和发布项目需求规范文档
4.9 项目需求收集完成后的工作
小结
第二部分 数据设计
第5章 维度建模的第1课
5.1 维度建模案例
5.1.1 什么是实体-关系建模
5.1.2 什么是维度建模
5.1.3 维度建模与实体-关系建模之间的关系
5.1.4 维度建模的优点
5.2 利用数据仓库总线结构将各种维度模型组合起来
5.2.1 规划危机
5.2.2 带总线结构的数据集市
5.2.3 一致性维度和标准事实的定义
5.2.4 一致性维度的设计
5.2.5 确保采用一致性维度
5.2.6 建立一致性事实定义
5.2.7 数据集市粒度的重要性
5.2.8 多元数据集市
5.2.9 拯救不兼容性数据集市
5.2.10 何时不需要一致性维度
5.2.11 数据仓库总线
5.3 基本维度建模技术
5.3.1 事实表与维度表
5.3.2 向上和向下探查维度表内情
5.3.3 建议使用的时间维度
5.3.4 加法性事实. 半加法性事实以及非加法性事实
5.3.5 设计单个事实表的4步设计方法
小结
第6章 维度建模的研究生课程
6.1 扩充维度表的设计
6.1.1 多对多维度
6.1.2 多对一与一对多陷阱
6.1.3 维度的不同角色扮演
6.1.4 组织与其下级部门的层次表示
6.1.5 不可预知的层次深度
6.1.6 大型维度中的时间戳变化
6.1.7 创建审计维度
6.1.8 维度数是太少了还是太多了
6.2 扩充事实表的设计
6.2.1 具有不同粒度的事实及其分配
6.2.2 以天为单位的维度表
6.2.3 多种指标单位
6.2.4 跨国货币情况跟踪
6.2.5 数值分组报告
6.3 高级ROLAP查询和报告
6.3.1 采用多种技术探查的查询
6.3.3 市场份额分析
小结
第7章 多维模型的创建
7.1 开始阶段使用的矩阵方法
7.1.1 矩阵的创建
7.1.2 必要的准备
7.1.3 列出数据集市
7.1.4 列出各种维度
7.1.5 标记交叉点
7.2 用4步法设计各个事实表
7.3 管理维度建模项目
7.3.1 数据仓库总线结构矩阵
7.3.2 事实表图表
7.3.3 事实表明细图
7.3.4 维度表明细图
7.3.5 维度建模小组的创建步骤
7.3.6 创建初始草图
7.3.7 跟踪基本事实和派生事实
7.3.8 让信息系统小组进行输入
7.3.9 与核心业务用户一起工作
7.3.10 向业务用户进行介绍
7.4 管理建模过程中存在的问题
7.4.1 为每个事实表和维度表确定来源
7.4.2 候选数据源
7.4.3 源数据所有权
7.4.4 数据提供者
7.4.5 选择数据源的详细准则
7.4.6 客户匹配与内部成员匹配
7.4.7 浏览数据内容
7.4.8 将源数据映射到目标数据
7.4.9 什么时候才算完成
7.4.10 为未来做准备
7.4.11 使用数据建模工具
7.4.12 估计行数
7.4.13 聚集设计
7.4.14 确定聚集的内容
小结
第三部分 数据仓库结构
第8章 数据仓库结构介绍
8.1 结构的价值
8.2 一个结构框架和方法
8.2.1 定义列
8.2.2 定义细节级别(行)
8.2.3 逻辑模型与物理模型
8.2.4 框架小结
8.3 技术结构概述
8.3.1 服务和数据存储
8.3.2 从源系统到用户桌面的流程
8.3.3 主要技术结构特性
8.3.4 数据仓库结构评估
小结
第9章 后台技术结构
9.1 后台数据存储
9.1.1 源系统
9.1.2 数据登台区
9.1.3 呈现服务器
9.2 后台服务
9.2.1 普通数据登台要求
9.2.2 创建与购买
9.2.3 提取服务
9.2.4 数据转换服务
9.2.5 数据装载服务
9.2.6 数据登台作业控制服务
9.3 后台资产管理
9.3.1 备份与恢复
9.3.2 存档与检索
9.3.3 备份与存档规划
9.3.4 提取和装载安全性问题
9.3.5 未来登台服务
小结
第10章 前台结构
10.1 前台数据存储
10.1.1 存取工具数据存储
10.1.2 标准报告数据存储
10.1.3 下行系统
10.2 用于数据存取的前台服务
10.2.1 数据仓库浏览
10.2.2 存取与安全性服务
10.2.3 活动监控服务
10.2.4 查询管理服务
10.2.5 查询服务位置
10.2.6 标准报告服务
10.2.7 未来存取服务
10.2.8 桌面服务
10.2.9 建模应用和数据挖掘
10.2.10 数据存取的Web含义
10.2.11 桌面工具结构方法
小结
第11章 体系结构与元数据
11.1 体系结构
11.1.1 体系结构的驱动力
11.1.2 体系结构的演变
11.1.3 后台体系结构因素
11.1.4 前台体系结构因素
11.1.5 连通性与联网因素
11.1.6 体系结构小结
11.2 元数据与元数据目录
11.2.1 什么是元数据
11.2.2 源系统元数据
11.2.3 数据登台元数据
11.2.4 数据库管理系统元数据
11.2.5 前台元数据
11.2.6 活动元数据样例
11.2.7 元数据目录的维护
11.2.8 元数据小结
小结
第12章 有关互联网和安全性方面的研究生课程
12.1 组件软件结构
12.1.1 互联网对结构的影响
12.2 安全性的脆弱
12.2.1 物理资产409
12.2.2 信息资产:数据. 财务资产以及声誉
12.2.3 软件资产
12.2.4 执行业务任务的能力
12.2.5 网络威胁
12.3 安全性:解决方案
12.3.1 路由器与防火墙
12.3.2 目录服务器
12.3.3 加密技术
12.4 数据仓库环境下的安全性管理
12.5 在安全性方面应采取的措施
12.5.1 立即执行的战术性措施
12.5.2 战略性措施
小结
第13章 创建结构计划与产品选择
13.1 创建结构
13.1.1 结构创建过程
13.1.2 创建技术结构计划
13.2 选择产品
13.2.1 集中关注业务需求
13.2.2 主要数据仓库评估区域
13.2.3 评估过程
13.2.4 创建产品评估矩阵
13.2.5 进行市场研究
13.2.6 将选择缩减到一份简短清单上
13.2.7 评估选项
13.2.8 选择开发一个原型
13.2.9 产品推荐
13.2.10 评估捷径
13.2.11 后台评估
13.2.12 前台评估
13.3 安装
小结
第四部分 数据仓库实施
第14章 有关聚集的研究生课程
14.1 聚集的目标和风险
14.2 确定要聚集的内容
14.3 制定聚集表计划
14.4 对聚集进行处理
14.5 对聚集进行管理
14.6 聚集浏览系统的设计目标
14.7 聚集浏览算法
14.7.1 与规划数据相交
14.7.2 有关MIN, MAX, COUNT, AVG的处理
14.7.3 适用于所有人的聚集
小结
第15章 完成物理设计
15.1 制定标准
15.1.1 数据库对象命名标准
15.1.2 为用户存取的所有表使用同义词
15.1.3 物理文件位置
15.2 创建物理数据模型
15.2.1 饮料商店销售额案例研究
15.2.2 数据建模工具的使用
15.2.3 物理数据结构的设计
15.2.4 估计最初的开发规模
15.3 制定最初的索引计划
15.3.1 索引和查询策略概述
15.3.2 为事实表创建索引
15.3.3 为维度表创建索引
15.3.4 为装载创建索引
15.3.5 在装载完成后对表和索引进行分析
15.3.6 索引案例研究
15.4 设计和创建数据库实例
15.4.1 内存
15.4.2 块大小
15.4.3 磁盘存取样例
15.4.4 保存数据库创建脚本和参数文件
15.5 创建物理存储结构
15.5.1 计算表和索引的大小
15.5.2 制定分割计划
15.5.3 建立RAID
15.6 实施使用监控系统
15.6.1 性能
15.6.2 用户支持
15.6.3 市场营销
15.6.4 规划
15.6.5 工具
小结
第16章 数据登台
16.1 数据登台概述
16.2 做一些预备工作
16.2.1 良好系统开发实践的重要性
16.3 进行有效的计划
16.3.1 步骤1:高级计划
16.3.2 步骤2:数据登台工具
16.3.3 步骤3:详细计划
16.4 维度表登台
16.4.1 步骤4:装载一个简单的维度表
16.4.2 静态维度表的转换
16.4.3 步骤5:实施维度变化逻辑
16.4.4 步骤6:装载剩余维度表
16.5 事实表装载与数据仓库操作
16.5.1 步骤7:装载原子级历史事实
16.5.2 步骤8:增量式事实表登台
16.5.3 步骤9:聚集表和多维联机分析处理装载
16.5.4 步骤10:数据仓库的操作与自动化
16.6 数据质量与净化
16.6.1 数据质量改进
16.6.2 数据质量保证
16.7 其他问题
16.7.1 数据登台区中的存档问题
16.7.2 源系统中的回退段问题
16.7.3 磁盘空间管理问题
小结
第17章 创建最终用户应用
17.1 最终用户应用角色
17.1.1 最终用户应用模板
17.1.2 生命周期的时间选择
17.2 应用规范
17.2.1 确定最初的模板集合
17.2.2 设计模板浏览方法
17.2.3 确定模板标准
17.2.4 详细模板规范
17.2.5 用户审查
17.3 最终用户应用开发
17.3.1 选择一种实现方法
17.3.2 应用开发
17.3.3 测试与数据验证
17.3.4 文档及其展示
17.3.5 像软件开发管理人员那样思考问题
17.3.6 应用模板维护
小结
第五部分 数据仓库的部署与增长
第18章 规划部署
18.1 确定是否已经准备好桌面安装
18.2 制定最终用户培训策略
18.2.1 集成和裁剪培训内容
18.2.2 开展最终用户培训
18.2.3 实施最终用户培训
18.3 制定最终用户支持策略
18.3.1 确定对组织结构的支持
18.3.2 参与数据协调方面的支持
18.3.3 参与最终用户应用支持
18.3.4 建立交流与反馈支持
18.3.5 提供支持文档
18.4 研制部署发布框架
18.4.1 Alpha版本发布
18.4.2 Beta版本发布
18.4.3 产品发布(又名部署)
18.5 编制有关部署策略的文档
小结
第19章 数据仓库的维护与增长
19.1 对现有数据仓库环境的管理
19.1.1 关注业务用户
19.1.2 管理数据仓库操作
19.1.3 数据仓库的成功测度和市场营销
19.1.4 经常进行交流
19.2 为数据仓库的增长与演变做准备
19.2.1 建立数据仓库指导委员会
19.2.2 优化数据仓库增长与演变的机会
19.2.3 采用生命周期方法来管理数据仓库的迭代增长与演变
小结
附录A 生命周期项目计划
附录B 关于本书附带的CD-ROM
B.1 项目计划
B.2 数据仓库总线结构样例
B.3 模板、检查清单、图形和帮助
第2章 业务维生命周期
第3章 项目规划与管理
第4章 项目需求的收集
第7章 多维模型的创建
第8章 数据仓库结构介绍
第9章 后台技术结构
第10章 前台结构
第11章 体系结构与元数据
第12章 有关互联网和安全性的研究生课程
第13章 结构计划的创建与产品的选择
第15章 完成物理设计
第16章 数据登台
第17章 创建最终用户应用
第18章 规划部署
B.4 CD-ROM的使用
B.5 CD-ROM浏览器的用法说明
B.6 软件要求
本书的主要读者对象是数据仓库的设计人员。管理人员及其所有者。他们都是在信息系统组织中工作的。无论他们的具体头衔是什么,都会深感创建和维护数据仓库(或是数据仓库的某些部分,即我们通常所说的数据集市)的责任重大。我们通过这本《数据仓库生命周期工具箱》提供了一份领域指南以及一整套工具,主要用于设计。开发和部署大型组织机构的数据仓库和数据集市。
我们试图使本书内容非常具体化和可操作,因此,它与其他数据仓库图书完全不同。我们在本书中描述了同完整数据仓库范围完全一致的框架,从关于开发和部署数据仓库的所有详细步骤,到用于规划其下一阶段的最终步骤,可以说贯穿了数据仓库的整个生命周期。
数据仓库市场显然已走出了其幼年时期。到本书写作时为止,仅美国就安装有一千多个数据仓库,它们都在发挥着作用。目前,许多数据仓库所有者全都按本书中介绍的“生命周期”观点看待其数据仓库。也许从生命周期观点中得到的最大收获就是:意识到各个数据仓库都在不断发展,处于动态变化之中,各种新的业务要求不断产生。新的管理人员和主管将一些不可预知的要求提交给数据仓库,还可以获得各种新的数据源。或者说,数据仓库至少需要尽量随着组织环境的变化而不断取得进展。稳定型组织会要求数据仓库取得适度进展,而变动较大的动态型组织则可能会使数据仓库任务变得富有挑战性。
考虑到数据仓库目前所具有的动态发展特性,我们必须对若干年前基于原始。理想化。静态的观点所提出的数据仓库期望值和相关技术进行调整。我们必须采用那些具有灵活性。可修改的各种技术,还必须同时扮演DBA和MBA双重角色。我们还需要见机行事地将一些小块数据(比如数据集市)连成大块数据(即数据仓库)。同时,还要求针对数据仓库所做的变化都必须是完美的。完美变化意味着以前的数据和各种应用仍然有效。
本书深入探讨了两个主题。第一个主题是业务维生命周期(Business Dimensional Lifecycle)方法。业务维生命周期始于业务需求,并创建了一系列具有可理解性。高性能的数据集市。这些数据集市全都是星型维度模型。
第二个主题是数据仓库总线结构。本书中介绍了如何创建一系列数据集市,使读者能够及时创建一个完整的数据仓库。在发布第一个数据集市之前,利用该方法就可以依据需求轻松地创建一个无所不包的。集中式数据仓库。
本书中涵盖了上述这些观点,提供了能够帮助读者完成作业任务的各种有用的技巧和工具,并且通过这种方式来介绍我们所积累的主要观点和价值观念。它们都是我们自1982年以来在从事数以百计的数据仓库安装和咨询任务过程中不断积累起来的。
本书特点及适用的读者
本书的主要读者对象应该是那些从事数据仓库的创建和管理工作的设计人员或者管理人员。本书还包含了一些介绍性材料,这些材料对于与数据仓库相关的信息系统专业人员来说也许很有用。熟悉Ralph Kimball所著的《数据仓库工具箱》(Wiley公司1996年出版)一书以后,就会了解数据仓库方面的适当背景知识。本书是建立在前一本书(《数据仓库工具箱》)的“工具箱”概念基础之上,但本书能提供更深入。更先进的数据仓库开发方法。
此外,通过设计和开发一个真实的数据仓库,就能够积累一些数据仓库经验,并形成自己的观点,这是最好的知识背景。没有任何东西可以替代在开发一个有效的数据仓库时所承担的责任。我们都曾有过感到羞辱的经历,那就是将数据仓库介绍给一群要求过分的最终用户的时候。通常令人难以接受的事实是,大多数最终用户的工作与技术毫不相关,他们甚至可能不是特别喜欢技术。但是,如果我们的技术易于使用,并且能为用户提供确有实效的使用价值,最终用户还是会使用我们的技术的。
本书略微偏向技术。其中有关数据仓库的设计技术和结构等方面的讨论,将介绍一些未曾遇见过的术语。我们对本书进行了精心梳理,以确保那些倾向于技术方面的主题都是我们认为读者必须懂得的内容,我们不打算因内容本身方面的缘故而陷入细节上的困扰。例如,对篇幅较长的。有关数据仓库安全性的章节内容的处理。有关安全性的讨论中我们尽量避免描述安全技术的精微细节,并注意不占据太大的篇幅。同时确保读者在承担某种安全责任时,能了解足够多的安全性主题。
如何有效使用本书
我们建议读者在了解感兴趣的章节前,将本书通读一遍,以便获得完整的业务维生命周期知识。各种经验和意见可能会帮助形成这方面的个人观点框架。例如,在读完第2章后,也许会明白在创建数据仓库时必须抓住三条平行线索,即技术结构。数据结构和应用结构。在各章开始部分的那个图形中的“You Are Here”处(译者注:即图中加阴影的部分)展示了这三条线索。尽管这三条线索之间显然会相互影响,但它们可以按平行方式或者异步方式发展。
由于图书的内容按线性方式进行编排,所以,书中介绍的业务维护生命周期的所有步骤,就像是按某种固定次序发生的那样。因此,在读完本书以后,就能够想像出这些步骤在现实世界中具有更现实。更复杂的各种关系。
本书中融合了许多实用技巧,为了便于读者轻松阅读,我们采用了如下的一些标识。
建立数据仓库过程特定部分的快照。项目计划任务和电子表格,请按以下标识分别进行查找。
这个标识在一些章节后面。它收集了有关数据仓库生命周期各个阶段所起的主要作用,其指示标记是由三根钥匙构成的一个图标。
这个标识在一些章节后面。它收集了有关各个处理步骤预计要考虑的各种事项,其指示标记是一个闹钟图标。
这个标识在一些章节后面。它收集了有关各种支持性模板的一份清单,其指示标记是一个CD-ROM图标。打开CD-ROM就可以获得相应的空白模板,然后按提示内容去使用它。
在全书中到处都在谈论着各式各样的规划所需帮助。清单以及模板。由于它们会对读者有所帮助,所以,建议使用CD-ROM中提供的各种样例。或许读者已经形成了自己的独特风格,或者已经拥有不同于我们的规划框架。无论是哪一种情况,我们所做的目的都是帮助读者尽快上路。
本书中给出的规划所需帮助仅提供了一个中等程度而不是详细程度的结构。由于数据仓库的实现是一项巨大的工程,所以,从事这方面工作的任何人都必须是非常好的管理人员。而好的管理人员都应该懂得如何平衡项目管理方法论以及人员和任务管理中的人员和逻辑问题等之间的关系。所以,建议使用本书中给出的结构或者读者自己创建的结构,但不要过分依赖它们。真正要做的工作是首先判断出组织中哪些是必须要做的重要事情,接着与其他人一起工作并完成它。
还可以将本书分成一条基本线索和一条“研究生”线索。本书目录中已清楚地标明其中有三章属于研究生课程。因此,在第一次阅读本书时(特别是当大部分材料都是新内容时更是如此),应该跳过那些标明为研究生课程的章节内容,只要了解其大致内容即可。接着,在对整个业务维生命周期掌握得更加得心应手以后,就会发现那些标明为研究生课程的章节内容都是非常有价值的。这些章节内容所介绍的都是这三个领域中的最新思想。
当项目进入到特定阶段时,应该返回到相应的章节,并且非常仔细地阅读其内容。这也正是为什么本书被命名为《数据仓库生命周期工具箱》的真正原因。
各章写作目的
第1章 数据仓库的基本组成
在本书撰写时,数据仓库方面许多含义不清的术语四处泛滥,甚至连数据仓库这个概念也失去了其准确含义。一些人甚至尝试将数据仓库定义为一种不可查询的数据资源。本章试图解决术语方面的所有争端,本书中统一使用术语的某种特定含义。本章中以统一的方式简要地定义了数据仓库中使用的一些重要术语。这或许有点儿像在打算下一盘棋之前必须研究所有的棋子及其用法。本书中所给出的术语定义都非常接近于它们的主流定义。
第一部分 项目管理与需求
第2章 业务维生命周期
本章从非常高的高度对整个业务维生命周期进行了定义,还简要讨论了其中的每一个步骤,并给出了对生命周期的整体看法。
第3章 项目规划与管理
本章对项目进行了定义,探讨了如何在考虑组织环境因素的同时设定项目的范围。此外,还广泛谈论了各种项目中的角色和责任。但大可不必一一调查所有项目的角色,只需要代之以任何可以想像得到的具体项目即可。因此,本章主要是写给管理人员看的。
第4章 收集项目需求
收集有关业务和数据的需求是整个数据仓库项目的基础,或者至少应该这样做。收集项目需求需要一定的技巧,并且它是信息系统组织中最常见的一项活动内容。本章提供了能轻松完成该工作的各种技术,但读者不必在该步骤上花费太多的时间。
第二部分 数据设计
第5章 维度建模的第1课
本章开头部分积极讨论了维度建模的价值。应该理解本章介绍该方法的深度。在过去的15年中,当我们完成了数以百计的数据仓库设计和安装任务以后,我们认为该方法是能够实现易理解性和性能这两大目标的惟一方法。接着,我们展示了如何将各种多维模型组合到某种一致性模型中的重要秘密。这个秘密就是所谓的一致性维度和一致性事实。我们将该方法称做数据仓库总线结构。计算机中有一个重要部件(即计算机总线),用户可以将所有东西连接到该总线上。同样地,数据仓库中也有一个重要部件,我们称它为数据仓库总线,也可将所有东西连接到它上面。本章的剩余部分全面介绍了有关数据仓库维度建模的知识,这个介绍可以看做Ralph Kimball先生所著的《数据仓库工具箱》一书中所论及主题的附录。
第6章 维度建模的研究生课程
本章收集了我们所能想到的维度建模方面最艰难的各种情形。其中的大多数例子来自特定的业务情形,比如,如何处理一些奇怪的客户。
第7章 多维模型的创建
本章需要解决的是如何为组织创建一个合适的模型。首先,需要建立一个有关数据集市和维度的矩阵。接着,可以按第5章中所描述的各种技术为每一个数据集市设计各种事实表。本章的后半部分描述了各种现实的管理问题,这些问题都是在应用上述方法以及创建各个数据集市所必需的所有维度模型时遇到的。
第三部分 数据仓库结构
第8章 数据仓库结构介绍
本章按照中等详细程度介绍了数据仓库技术结构的全部部件,描述了其中的全部情景。本部分剩下的5章探讨了特定领域的细节情况。这方面的讨论可以细分成数据结构。应用结构以及体系结构等部分。在遵循第5章中提出的数据仓库总线结构以后,就能够每次创建一个数据集市,并且最终能够得到一个灵活的。统一的完整数据仓库。但是,这并不意味着很容易就能够完成这件事。
第9章 后台技术结构
本章介绍了后台的各种系统部件,包括源系统。报告实例。数据登台区。基础级数据仓库和业务处理数据集市。本章中将介绍有关操作型数据存储(ODS)的情况。还会讨论后台中必须提供的所有服务,利用它们可将数据装载到数据集市呈现服务器中。
第10章 前台结构
前台就是执行发行操作的地方。应该使数据可以获得,并且提供用来满足不同用户需求的一组工具。本章还提供了在前台中必须支持的许多需求的全面性观点。
第11章 体系结构与元数据
体系结构是用来将数据仓库连成一个整体的。本章中包含了体系结构的具体细节情况。在讨论细节情况时,考虑的是每一位数据仓库设计人员和管理人员都必须了解的硬件。软件。通信等方面的知识,特别是元数据知识。
第12章 有关互联网和安全性方面的研究生课程
尽管互联网已经对数据仓库管理人员的生活产生了极其巨大的潜在影响,但许多数据仓库管理人员不是没有认识到互联网对他们的真实影响,就是避免讨论这方面的问题。本章将展示基于互联网的数据仓库及其安全性等方面问题的现状情况,还提供了用来保护数据仓库安装过程安全的一份行动清单。贯穿本章的各种样例都倾向于揭示数据仓库拥有者必须面对的各种挑战和内幕。
第13章 创建结构计划与产品选择
本章假设读者是一位软件。硬件。体系结构等方面的专家,正准备为组织制定一份具体的结构计划,还负责选择各种具体产品。本章中讨论了产品选择过程以及组合产品策略。但需要记住的是,本书中并不打算讨论某些具体销售商的产品平台情况。
第四部分 数据仓库实施
第14章 有关聚集的研究生课程
聚集是指创建的预存储概要,主要用于提升数据仓库系统的性能。本章深入探讨了聚集的结构。聚集应用的场合。如何使用聚集以及如何管理聚集等内容。假如其他系统是按数据仓库总线结构进行建造的,则聚集就是用来提升大型数据仓库系统性能的一个性价比最高的途径。
第15章 完成物理设计
尽管不了解读者会选择哪一种数据库管理系统和硬件结构,但我们仍建议读者了解这方面的许多重要思想。本章中讨论了物理数据结构。索引策略等内容,特别是讨论了用于数据仓库的各种专业数据库以及RAID存储策略。
第16章 数据登台
一旦安排好了各种主要的系统,则接下来的就是最艰巨。风险最大的处理步骤,即需要从传统系统中取出数据,并将该数据装载到数据集市数据库管理系统中。数据登台区是用来临时存放要进行净化和转换的传统数据的中转地。本章详细讨论了数据登台区中可能会发生哪些情况以及不应该发生哪些情况。
第17章 创建最终用户应用
在数据终于被装载到数据库管理系统以后,还必须安排如何在用户桌面上进行“软着陆”方面的事情。最终用户应用是指各种查询工具。报告写作程序和数据挖掘系统,其主要功能是从数据库管理系统中提取数据并实现一些有用的功能。本章描述的是用于起步阶段的一组最终用户应用,它们都是你在数据集市实施的起始阶段所必须提供的各种应用。
第五部分 数据仓库的部署与增长
第18章 规划部署
在一切准备就绪以后,应该暂时抛开该系统,并且像商业软件销售商那样采取行动。必须做的事情包括:安装软件。培训用户。收集错误报告。征求反馈意见和响应各种新需求。还必须小心翼翼地制定各种计划,以便能按设定的期望值交付该系统。
第19章 数据仓库的维护与增长
最后,当整个数据集市建立起来并运转以后,还必须回过头来再做一遍。但正如先前所说过的那样,与其说数据仓库是一个过程,还不如说数据仓库是一个项目。当本章能为读者留下这样一种有价值的最后印象时(即“所做的事情永远不会完毕!”),说明它最适合做本书的结束部分。
各种支持工具
附录A
附录A中总结了在业务维生命周期的某个地方或者用某种格式需要用到的整个项目计划。其中列出了全部项目的任务和角色。
附录B
附录B是本书附带的CD-ROM的一份内容导游图。还遍历了如何使用数据仓库总线结构样例设计。
CD-ROM
本书附带的CD-ROM中包含了大量实用的检查清单。模板以及可用于数据仓库开发的各种表格,其中还包括用来描述数据仓库总线结构的样例设计。
数据仓库的目标
组织中最重要的资产就是它所拥有的信息。这种信息资产通常保存成以下两种形式,即操作型记录系统和数据仓库。简言之,操作型记录系统是指存放数据的地方,而数据仓库是指能从其中取出数据的地方。《数据仓库工具箱》一书中曾经详细描述过这种二分法。在本书写作时,似乎没有必要再让人确信整个世界的确只存在两类系统,或者经常只存在两类系统。目前能被广泛接受的一种观点就是,数据仓库要比操作型记录系统具有更多的需求。客户。结构和节奏。
最后还需要暂时撇开数据仓库的实现和建模等方面的细节情况,并且要牢记到底什么是数据仓库的基本目标。数据仓库具有以下特点。
使组织信息变得可存取
数据仓库的内容都是可理解。可浏览的,数据仓库的存取表现为快速的性能。这些方面的要求既无边界,也没有明确的限制。“可理解”意味着需要为其内容加上正确的标签,使之显而易见。“可浏览”意味着需要认识到数据仓库的终极目的地是用户屏幕,用户只需要单击一下就可以浏览相关内容。“快速的性能”意味着零等待时间。其他事情都意味着某种折中,所以必须在某些方面有所改进。
使组织信息具有一致性
来自组织中某一部分的信息必须与另一部分的信息相匹配。当组织中的两种指标方法名称相同时,它们肯定是指同一件事。反之,当它们不是指同一件事时,其标识也应该不一样。信息的一致性意味着信息的高质量,还意味着所有信息都是可以证明的完整信息。其他事情都意味着某种折中,所以必须在某些方面有所改进。
它是一种自适应的。有弹性的信息源
数据仓库被设计用于持续变化环境。当提交有关数据仓库的各种新问题时,现有的数据和技术都不会发生变化或者遭到破坏。当新数据被添加到数据仓库时,现有的数据和技术都不会发生变化或者遭到破坏。由于多个数据集市可以组成一个数据仓库,所以对单个数据集市的设计必须采用分布式和增量式设计。其他事情都意味着某种折中,所以必须在某些方面有所改进。
它是能保护信息资产安全的安全堡垒
数据仓库不仅能有效地控制数据的存取,而且能为其所有者提供非常大的可见度,使后者能够了解数据的使用和误用情况,即使在它已离开数据仓库以后也能够实现这一点。其他事情都意味着某种折中,所以必须在某些方面有所改进。
它是决策的基础
数据仓库拥有用于支持决策活动的合适数据。从数据仓库中只有一种真实的输出(即用于决策)。在数据仓库提供了相关证据以后,就可以做出决策。数据仓库的最初标签是“决策支持系统”,它仍然最适合用来描述我们正在试图创建的东西。
本书的写作目的
当本书继续获得成功以后,大型数据仓库的设计人员和管理人员就能够更快地实现其目标。他们将会创建各种高效的数据仓库,这些数据仓库的目标与本书前面章节中所概述的数据仓库目标能够很好地匹配,同时在该过程中所犯的错误也会更少。幸好不必重新回头,并且发现“先前所拥有的”各种真理。
本书试图尽可能多地从技术角度去探讨数据仓库这样一个大主题,而不被面向特定产品销售商的具体细节所纠缠。对于从事数据仓库市场营销工作的人员来说,他们的一个兴趣点肯定是在理解所有数据仓库职责时所必需的知识宽度上。我们非常强烈地感觉到在这方面有必要保持较宽泛的观点,主要是因为数据仓库具有不断进化的特征。即使数据仓库已经超越了文本和数字数据这些基础概念,或者依靠关系型数据库技术,本书中所提及的大多数原则仍然适用,因为数据仓库项目组的使命从字面意义上看,最重要的就是要创建一个决策支持系统。
在拥有适量的结构和规范时,就可以为创建复杂的大型数据仓库提供很大帮助。因此,我们打算通过本书介绍这些结构和规范,希望读者能够理解和参与整个业务维生命周期法,同时还将这种观点灌输给整个组织。数据仓库在许多方面体现了信息系统中的一个重要思想,即收集组织信息,并使之变得更加有用。
“生命周期”这种思想意味着它是一个永无止境的过程,数据仓库也会经历发芽。开花,最后走向消亡等阶段,它只能被另一个新的数据仓库所替代,而新的数据仓库又是基于前一代数据仓库遗留下来的观点进行创建的。本书中尝试捕获这些观点,帮助读者组织创建新的数据仓库。
访问相关Web站点
本书可以看做是数据仓库产业的一个静态快照,并提供了很重要的方法论。在了解有关这些问题的最新动态观点时,必须访问本书的网站(网址是www.wiley.com/compbooks/kimball),或者登录其镜像站点(网址是www.lifecycle-toolkit.com)。我们作为本书的作者,打算亲自维护该Web站点,使之成为对数据仓库专业人员有用的一种资源。