新書推薦:
《
小原流花道技法教程
》
售價:HK$
112.7
《
少女映像室 唯美人像摄影从入门到实战
》
售價:HK$
113.9
《
詹姆斯·伍德系列:不负责任的自我:论笑与小说(“美国图书评论奖”入围作品 当代重要文学批评家詹姆斯·伍德对“文学中的笑与喜剧”的精湛研究)
》
售價:HK$
89.7
《
武当内家散手
》
售價:HK$
51.8
《
诛吕:“诸吕之乱”的真相与吕太后时期的权力结构
》
售價:HK$
102.4
《
炙野(全2册)
》
售價:HK$
80.3
《
女人的胜利
》
售價:HK$
57.4
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:HK$
273.7
|
編輯推薦: |
数据集成领域经典著作,资深专家数十年工作经验结晶,数据管理专家作序推荐
深入讲解大数据环境下大中型企业中不同应用系统之间的数据集工具、方法、架构、解决方案和最佳实践
|
內容簡介: |
本书是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。
本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和最佳实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。
本书虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。
|
關於作者: |
April Reeve
资深数据集成专家、资深信息管理顾问、企业架构师和项目经理,拥有数十年行业从业经验,经历丰富,曾服务于多家大型跨国公司,主要负责开发数据战略以及管理开发和运行方案。她是数据转换、数据仓库、商务智能、主数据管理、数据集成和数据治理等数据管理领域的专家。目前,她作为企业信息管理实践的咨询顾问服务于EMC2咨询公司。
译者简介
余水清
国家认证系统分析师、信息系统项目管理师、系统架构师、中国系统分析员协会(CSAI)专业顾问,领导和参与过多项大型软件系统开发项目,担任软件设计师、系统架构设计师、项目经理等职位,涉及银行、医疗、制造业等多个行业 。在信息系统、数据仓库的设计、开发和部署方面拥有丰富的理论和实践经验。
潘黎萍
软件工程硕士,高级工程师,从事企业级信息系统开发和管理十余年,精通数据仓库、商务智能系统的设计和开发,研究领域包括数据集成方法、ETL、数据转换、大数据应用和智能分析系统开发。
|
目錄:
|
译者序
序言
前言
第一部分 数据集成导论
第1章 数据集成的重要性 2
1.1 数据接口的天然复杂性 2
1.2 购买供应商应用包的数量日益增加 3
1.3 大数据和虚拟化的催化剂 3
第2章 什么是数据集成 5
2.1 运动中的数据 5
2.2 集成为通用格式—数据转换 5
2.3 数据从一个系统迁移到另一个系统 6
2.4 在组织内部移动数据 6
2.5 从非结构化数据中抽取信息 8
2.6 将处理移动到数据端 9
第3章 数据集成的类型和复杂性 10
3.1 管理运动中的数据和持久化数据的异同点 10
3.2 批处理数据集成 10
3.3 实时数据集成 11
3.4 大数据集成 11
3.5 数据虚拟化 12
第4章 数据集成开发过程 13
4.1 数据集成开发生命周期 13
4.2 包含业务知识和专家经验 14
第二部分 批处理数据集成
第5章 批处理数据集成简介 18
5.1 什么是批处理数据集成 18
5.2 批处理数据集成生命周期 19
第6章 抽取、转换和加载 20
6.1 什么是ETL 20
6.2 概要分析 20
6.3 抽取 21
6.4 暂存 22
6.5 访问层次 22
6.6 转换 23
6.6.1 简单映射 23
6.6.2 查找表 24
6.6.3 聚合和规范化 24
6.6.4 计算 24
6.7 加载 24
第7章 数据仓库 26
7.1 什么是数据仓库 26
7.2 企业数据仓库架构中的层次 26
7.2.1 操作型应用层 26
7.2.2 外部数据 27
7.2.3 数据仓库中的数据暂存区 27
7.2.4 数据仓库数据结构 28
7.2.5 从数据仓库到数据集市或者商务智能层的暂存 28
7.2.6 商务智能层 28
7.3 加载到数据仓库中的数据类型 29
7.3.1 数据仓库中的主数据 29
7.3.2 数据仓库中的余额和快照数据 30
7.3.3 数据仓库中的事务型数据 31
7.3.4 事件 31
7.3.5 调整 31
第8章 数据转换 39
8.1 什么是数据转换 39
8.2 数据转换生命周期 39
8.3 数据转换分析 39
8.4 数据加载最佳实践 40
8.5 提高源数据质量 40
8.6 映射到目标系统 41
8.7 配置数据 41
8.8 测试和依赖 42
8.9 私有数据 42
8.10 校对 43
8.11 环境 43
第9章 数据归档 47
9.1 什么是数据归档 47
9.2 归档数据选择 47
9.3 已归档数据可以恢复吗 48
9.4 归档环境下数据结构的确认 48
9.5 灵活的数据结构 49
第10章 批处理数据集成架构和元数据 54
10.1 什么是批处理数据集成架构 54
10.2 概要分析工具 55
10.3 建模工具 55
10.4 元数据存储库 55
10.5 数据移动 56
10.6 转换 56
10.7 调度 57
第三部分 实时数据集成
第11章 实时数据集成简介 64
11.1 为什么需要实时数据集成 64
11.2 为什么需要两组技术 64
第12章 数据集成模式 66
12.1 交互模式 66
12.2 松耦合 66
12.3 中心和节点模式 66
12.4 同步交互和异步交互 69
12.5 请求和应答 70
12.6 发布和订阅 70
12.7 两阶段提交 70
12.8 集成交互类型 71
第13章 核心实时数据集成技术 72
13.1 令人困惑的术语 72
13.2 企业服务总线 72
13.3 面向服务架构 75
13.4 可扩展标记语言 77
13.5 数据复制和变化数据捕获 81
13.6 企业应用集成 82
13.7 企业信息集成 82
第14章 数据集成建模 84
14.1 规范化建模 84
14.2 消息建模 88
第15章 主数据管理 89
15.1 主数据管理简介 89
15.2 需要主数据管理方案的原因 89
15.3 购买的软件包与主数据 90
15.4 参考数据 90
15.5 主和从 91
15.6 外部数据 93
15.7 主数据管理功能 93
15.8 主数据管理方案的类型—注册表以及数据中心 94
第16章 实时更新数据仓库 95
16.1 企业信息工厂 95
16.2 操作型数据存储 96
16.3 移动到数据仓库的主数据 97
第17章 实时数据集成架构和元数据 99
17.1 实时数据集成元数据简介 99
17.2 建模 100
17.3 概要分析 100
17.4 元数据库 101
17.5 企业服务总线—数据转换和调度 101
17.5.1 技术中介 101
17.5.2 业务内容 102
17.6 数据移动和中间件 102
17.7 外部交互 102
第四部分 大数据集成
第18章 大数据集成简介 106
18.1 数据集成及非结构化数据 106
18.2 大数据、云数据及数据虚拟化 106
第19章 云架构和数据集成 107
19.1 为什么云中的数据集成比较重要 107
19.2 公共云 107
19.3 云安全 108
19.4 云延迟 109
19.5 云冗余 110
第20章 数据虚拟化 111
20.1 恰逢其时的一项技术 111
20.2 数据虚拟化的商业用途 112
20.2.1 商务智能方案 112
20.2.2 集成不同类型的数据 113
20.2.3 快速向数据仓库中增加或者原型增加数据 113
20.2.4 将物理上不同的数据一起展现 113
20.2.5 利用不同的数据和模型触发交易 114
20.3 数据虚拟化架构 114
20.3.1 源和适配器 114
20.3.2 映射、模型和视图 114
20.3.3 转换和展现 115
第21章 大数据集成 116
21.1 什么是大数据 116
21.2 大数据维度—量 116
21.2.1 大规模并行处理—将处理过程移动到数据端 116
21.2.2 Hadoop和MapReduce 117
21.2.3 与外部数据集成 117
21.2.4 虚拟化 118
21.3 大数据维度—多样性 118
21.3.1 数据类型 118
21.3.2 集成不同类型的数据 118
21.4 大数据维度—速度 120
21.4.1 流式数据 121
21.4.2 传感器和GPS数据 121
21.4.3 社会化媒体数据 121
21.5 传统大数据应用案例 121
21.6 更多大数据应用案例 122
21.6.1 医疗 122
21.6.2 物流 122
21.6.3 国家安全 122
21.7 利用大数据的力量—实施决策支持 123
21.7.1 触发行动 123
21.7.2 从内存以及磁盘中检索数据的速度 123
21.7.3 从数据分析到模型,从流式数据到决策 124
21.8 大数据架构 125
21.8.1 操作型系统和数据存储 125
21.8.2 中间数据中心 126
21.8.3 商务智能工具 126
21.8.4 数据虚拟化服务器 127
21.8.5 批处理和实时数据集成工具 127
21.8.6 分析型沙盒 127
21.8.7 风险响应系统推荐引擎 127
第22章 移动数据管理总结 132
22.1 数据集成架构 132
22.1.1 为什么需要数据集成架构 132
22.1.2 数据集成生命周期和专家经验 132
22.1.3 安全和隐私 133
22.2 数据集成引擎 134
22.2.1 操作连贯性 134
22.2.2 ETL引擎 134
22.2.3 企业服务总线 135
22.2.4 数据虚拟化服务器 135
22.2.5 数据移动 136
22.3 数据集成中心 136
22.3.1 主数据 137
22.3.2 数据仓库和操作型数据存储 137
22.3.3 企业内容管理 138
22.3.4 数据归档 138
22.4 元数据管理 138
22.4.1 数据发现 138
22.4.2 数据概要分析 139
22.4.3 数据建模 139
22.4.4 数据流建模 139
22.4.5 元数据存储库 139
22.5 结束语 140
参考文献 141
|
內容試閱:
|
第一部分
数据集成导论
第1章 数据集成的重要性
第2章 什么是数据集成
第3章 数据集成的类型和复杂性
第4章 数据集成开发过程
第1章 数据集成的重要性
1.1 数据接口的天然复杂性
一般企业计算环境总是由上百甚至上千离散并且不断变化的计算机系统组成的,这些系统或自行构建,或购买,或通过其他方式获得。这些系统的数据需要集成到一起,用于做报表或者分析,需要共享以进行商务处理;当旧系统被设立的新系统取代时,需要从旧系统格式转换为另外一种格式。对于所有的信息技术组织来说,如何有效地管理系统之间的数据传输是需要面对的主要挑战之一。
绝大多数数据管理都集中在存储于数据结构中的数据,如数据库和文件系统。只有极少数关注不同的数据结构存储之间流动的数据。然而,组织内部的数据接口管理正快速成为业务和信息技术管理最主要的关注点。随着越来越多的系统加入组织的应用系统组合中,系统之间接口的数量和复杂度也随之迅速膨胀,接口之间的管理也让人不堪重负。
传统的接口开发方式很快导致复杂度变得难以管理。应用和系统之间接口的数量随着系统数量的增加呈指数级增加。实际工作中,并不是每个系统都需要和其他系统交互,但是为了满足不同的需求或者数据交换的需要,在系统之间却会存在多个接口。因此,对于一个拥有100个应用的组织来说,可能有大致5000个接口。对于一个拥有1000个应用的应用组合来说,可能会有近50万个接口需要管理。
如图1-1所示,传统的“点对点”的集成方案正是产生这种挑战的原因。而借助一些数据管理最佳实践的技巧,则可以让组织的数据接口管理更为合理。如果组织在开发接口的时候没有一个企业级的数据集成策略,那么很快就会发现接踵而至的管理大量接口的麻烦。
|
|