《Spark机器学习：核心技术与实践》 - ［美］亚历克斯·特列斯 - 机械工业出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』Spark机器学习：核心技术与实践

書城自編碼： 3202407
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：［美］亚历克斯·特列斯
國際書號(ISBN)： 9787111598466
出版社：机械工业出版社
出版日期： 2018-06-01
版次： 1

書度/開本： 16开釘裝：平装

售價：HK$ 98.0

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《明代粮长制度（增订本）精--梁方仲著作集》
售價：HK$ 68.2

《印度古因明研究》
售價：HK$ 129.8

《帝国痼疾：殖民主义、奴隶制和战争如何改变医学》
售價：HK$ 79.2

《理智与疯狂》
售價：HK$ 74.8

《明代一条鞭法（精）--梁方仲著作集》
售價：HK$ 85.8

《自我与本我：弗洛伊德经典心理学著作（精装典藏版）》
售價：HK$ 74.8

《消费是什么：关于消费主义的社会学研究（一本书告诉你为什么买买买之后也有巨大空虚感）》
售價：HK$ 64.9

《人类简史系列（白金纪念版）（套装共4册）》
售價：HK$ 347.6

建議一齊購買：

HK$ 126.4
《Spark实时大数据分析——基于Spark Streamin》

HK$ 83.8
《Spark机器学习进阶实战》

HK$ 113.9
《Spark高级数据分析（第2版）》

HK$ 98.0
《深度实践Spark机器学习》

HK$ 140.6
《Python+Spark 2.0+Hadoop机器学习与大数》

HK$ 197.4
《Spark内核设计的艺术：架构设计与实现》

編輯推薦：

作为一名具有机器学习和统计背景的开发人员，你是否感受到了当前缓慢的“小数据”机器学习工具的限制？那么本书就是为你而写！在本书中，你将会使用Spark创建可扩展的机器学习应用，为现代的数据驱动业务提供支持。
本书从MLlib和H2O库定义的机器学习原语开始，你将学到如何使用二分类检测由CERN粒子对撞机产生的大量数据中的希格斯波色子，并使用多元分类的集成方法对日常身体活动进行分类。接下来，你将解决一个涉及航班延误预测的典型回归问题，并编写复杂的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。后，你将会使用MLlib构建不同的模式挖掘模型，使用Spark和Spark SQL对DataFrame进行复杂的操作，并在Spark Streaming环境中部署你的应用。

內容簡介：

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用，帮助读者解锁Spark机器学习算法的复杂性，通过数据分析产生有价值的数据洞察力。

關於作者：

About the Authors?关于作者
Alex Tellez是一名终身的数据黑客爱好者，对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验，包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能机器学习会议上进行过多次演讲，同时也在大学讲授关于神经网络的课程。闲暇时间，Alex喜欢和家人在一起，骑自行车，并利用机器学习来满足他对法国葡萄酒的好奇心！
首先，我要感谢Michal与我一起编写本书。同样作为的机器学习（Machine Learning，以下简称ML）爱好者、自行车爱好者、跑者和父亲，在一年来共同努力的过程中，我们对彼此有了更深的了解。换句话说，没有Michal的支持和鼓励，本书是不可能完成的。
接下来，我要感谢我的妈妈、爸爸和哥哥Andres，从我出生天直到现在的每一步，你们都陪伴在我的周围。毋庸置疑，我的哥哥仍会是我的英雄，是我永远仰望的人，是我的指路灯。当然，还要感谢我美丽的妻子Denise和女儿Miya，在每个夜晚和周末给予我写作上的关心和支持。我无法描述你们对我而言意味着多少，你们是我保持持续创作的灵感和动力。对我的女儿Miya，我的希望是，有一天当你拿起这本书时，会意识到你的老爸并不像看起来那么傻。About the Authors?关于作者
Alex Tellez是一名终身的数据黑客爱好者，对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验，包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能机器学习会议上进行过多次演讲，同时也在大学讲授关于神经网络的课程。闲暇时间，Alex喜欢和家人在一起，骑自行车，并利用机器学习来满足他对法国葡萄酒的好奇心！
首先，我要感谢Michal与我一起编写本书。同样作为的机器学习（Machine Learning，以下简称ML）爱好者、自行车爱好者、跑者和父亲，在一年来共同努力的过程中，我们对彼此有了更深的了解。换句话说，没有Michal的支持和鼓励，本书是不可能完成的。
接下来，我要感谢我的妈妈、爸爸和哥哥Andres，从我出生天直到现在的每一步，你们都陪伴在我的周围。毋庸置疑，我的哥哥仍会是我的英雄，是我永远仰望的人，是我的指路灯。当然，还要感谢我美丽的妻子Denise和女儿Miya，在每个夜晚和周末给予我写作上的关心和支持。我无法描述你们对我而言意味着多少，你们是我保持持续创作的灵感和动力。对我的女儿Miya，我的希望是，有一天当你拿起这本书时，会意识到你的老爸并不像看起来那么傻。
后，我也要感谢你——读者，感谢你对这个令人兴奋的领域以及难以置信的技术感兴趣。无论你是一名经验丰富的ML专家，还是希望立足的新人，你都会找到适合自己的内容，我希望你能像Michal和我一样，从本书中获得很多。
Max Pumperla是一名数据科学家和工程师，专注于深度学习及其应用。他目前在Skymind担任深度学习工程师，并且是aetros.com的联合创始人。Max是几个Python软件包的作者和维护者，包括elephas，一个使用Spark的分布式深度学习库。他的开源足迹包括对许多流行的机器学习库的贡献，如keras、deeplearning4j和hyperopt。他拥有汉堡大学的代数几何博士学位。
Michal Malohlava是Sparkling Water的创建者、极客和开发者，Java、Linux、编程语言爱好者，拥有10年以上的软件开发经验。他于2012年在布拉格的查尔斯大学获得博士学位，并在普渡大学攻读博士后。
在学习期间，他关注利用模型驱动方法和领域特定语言构建分布式、嵌入式、实时和模块化系统，参与了各种系统的设计和开发，包括SOFA和分形组件系统以及jPapabench控制系统。
现在，他的主要兴趣是大数据计算。他参与了高级大数据计算平台H2O的开发，并将其嵌入到Spark引擎中作为Sparkling Water项目发布。
我要感谢我的妻子Claire，感谢她对于我的爱和鼓励。

目录?Contents
译者序
关于作者
前言
第1章　大规模机器学习和Spark入门1
1.1　数据科学2
1.2　数据科学家：21世纪最炫酷的职业2
1.2.1　数据科学家的一天3
1.2.2　大数据处理4
1.2.3　分布式环境下的机器学习算法4
1.2.4　将数据拆分到多台机器6
1.2.5　从Hadoop MapReduce到Spark6
1.2.6　什么是Databricks7
1.2.7　Spark包含的内容8
1.3　H2O.ai简介8
1.4　H2O和Spark MLlib的区别10
1.5　数据整理10
1.6　数据科学：一个迭代过程11
1.7　小结11
第2章　探索暗物质：希格斯玻色子12
2.1　Ⅰ型错误与Ⅱ型错误12
2.1.1　寻找希格斯玻色子13
2.1.2　LHC和数据的创建13
2.1.3　希格斯玻色子背后的理论14
2.1.4　测量希格斯玻色子14
2.1.5　数据集14
2.2　启动Spark与加载数据15
2.2.1　标记点向量22
2.2.2　创建训练和测试集合24
2.2.3　第一个模型：决策树26
2.2.4　下一个模型：集合树32
2.2.5　最后一个模型：H2O深度学习37
2.2.6　构建一个3层DNN39
2.3　小结45
第3章　多元分类的集成方法46
3.1　数据47
3.2　模型目标48
3.2.1　挑战48
3.2.2　机器学习工作流程48
3.2.3　使用随机森林建模61
3.3　小结78
第4章　使用NLP和Spark Streaming预测电影评论80
4.1　NLP简介81
4.2　数据集82
4.3　特征提取85
4.3.1　特征提取方法：词袋模型85
4.3.2　文本标记86
4.4　特征化——特征哈希89
4.5　我们来做一些模型训练吧92
4.5.1　Spark决策树模型93
4.5.2　Spark朴素贝叶斯模型94
4.5.3　Spark随机森林模型95
4.5.4　Spark GBM模型96
4.5.5　超级学习器模型97
4.6　超级学习器97
4.6.1　集合所有的转换101
4.6.2　使用超级学习器模型105
4.7　小结105
第5章　word2vec预测和聚类107
5.1　词向量的动机108
5.2　word2vec解释108
5.2.1　什么是单词向量108
5.2.2　CBOW模型110
5.2.3　skip-gram模型111
5.2.4　玩转词汇向量112
5.2.5　余弦相似性113
5.3　doc2vec解释113
5.3.1　分布式内存模型113
5.3.2　分布式词袋模型114
5.4　应用word2vec并用向量探索数据116
5.5　创建文档向量118
5.6　监督学习任务119
5.7　小结123
第6章　从点击流数据中抽取模式125
6.1　频繁模式挖掘126
6.2　使用Spark MLlib进行模式挖掘130
6.2.1　使用FP-growth进行频繁模式挖掘131
6.2.2　关联规则挖掘136
6.2.3　使用prefix span进行序列模式挖掘138
6.2.4　在MSNBC点击流数据上进行模式挖掘141
6.3　部署模式挖掘应用147
6.4　小结154
第7章　使用GraphX进行图分析155
7.1　基本的图理论156
7.1.1　图156
7.1.2　有向和无向图156
7.1.3　阶和度157
7.1.4　有向无环图158
7.1.5　连通分量159
7.1.6　树160
7.1.7　多重图160
7.1.8　属性图161
7.2　GraphX分布式图计算引擎162
7.2.1　GraphX中图的表示163
7.2.2　图的特性和操作165
7.2.3　构建和加载图170
7.2.4　使用Gephi可视化图结构172
7.2.5　图计算进阶178
7.2.6　GraphFrame181
7.3　图算法及其应用183
7.3.1　聚类183
7.3.2　顶点重要性185
7.4　GraphX在上下文中188
7.5　小结189
第8章　Lending Club借贷预测190
8.1　动机190
8.1.1　目标191
8.1.2　数据192
8.1.3　数据字典192
8.2　环境准备193
8.3　数据加载193
8.4　探索——数据分析194
8.4.1　基本清理194
8.4.2　预测目标200
8.4.3　使用模型评分221
8.4.4　模型部署224
8.5　小结229

內容試閱：

Preface?前言
大数据是几年前我们开始探索用Spark进行机器学习时的初衷。我们希望建立的机器学习程序能够充分利用大量数据训练模型，但一开始这并不容易。Spark仍在演进阶段，还没有包含强大的机器学习库，而且我们也在试图弄清楚建立一个机器学习程序到底意味着什么。
慢慢地，我们开始探索Spark生态系统的各个角落，追随它的演进。对我们来说，最关键的是需要一个强大的机器学习库，能够提供像R和Python库那样的功能。这对我们来说比较容易，因为当时我们正积极参与H2O机器学习库和它的一个叫作Sparkling Water的分支的开发，这个分支能够让Spark应用程序使用H2O库。然而，模型训练只是机器学习的冰山一角，我们还不得不弄清楚如何把Sparkling Water连接到Spark RDD、DataFrame以及DataSet，怎样用Spark连接和读取不同的数据源，以及怎样把模型导出到其他的应用程序加以使用。
在这个过程中，Spark自身也在演进。Spark最初是一个纯粹的Scala项目，后来开始提供Python接口，之后提供R接口。Spark API也在这个漫长的过程中从提供底层的RDD接口发展到高阶的DataSet接口（一组类SQL的接口）。而且，Spark也采纳了源自Python scikit-learn库的机器学习流水线的概念。所有这些改进使得Spark成为一个非常好的数据转换和处理工具。
基于这些经验，我们决定撰写本书，同世界分享我们得到的知识，意图很简单：用示例来展示建立Spark机器学习应用的方方面面，不仅展示如何使用最新的Spark功能，而且也展示Spark底层接口。我们所发现的关于Spark、机器学习应用开发流程和源代码组织方面很多小的技巧和捷径也会在本书中分享给读者，让大家免于犯同样的错误。
本书的示例使用Scala作为主要的实现语言。使用Python还是Scala是一个艰难的抉择，但是最终Scala胜出。使用Scala有两个主要的原因：它提供了最为完整的Spark接口，而且得益于JVM带来的性能优势，在生产环境中部署的大部分应用都使用Scala。最后，本书的示例源代码都可以在网上下载。
希望你能够享受本书带来的阅读乐趣，并且希望它能够帮助你遨游Spark的世界，帮助你开发机器学习应用。
本书主要内容
第1章带领读者进入机器学习和大数据的世界，介绍它们的历史，以及包括Apache Spark和H2O在内的当代工具。
第2章专注于二项模型的训练和评估。
第3章尝试根据健身房中人体传感器所收集的数据推测人的活动。
第4章介绍使用Spark处理自然语言问题，展示其对电影评论进行情感分析的能力。
第5章详细讨论了当代自然语言处理技术。
第6章介绍频繁模式挖掘的基础知识，Spark MLlib中相关的三个算法，以及把算法部署为Spark Streaming应用。
第7章介绍图和图分析的基本概念，解释Spark GraphX的核心功能，以及一些图算法，如PageRank。
第8章把之前章节介绍的技巧组合为一个完整的示例，包括数据处理、模型搜索和训练，以及把模型部署为一个Spark Streaming应用。
所需的环境
本书提供的代码示例基于Apache Spark 2.1及Scala API，使用Sparkling Water库来访问H2O机器学习库。在每一章中，我们会展示如何使用spark-shell启动Spark，以及如何下载运行代码所需要的数据。
简而言之，运行本书提供的代码所需的基础环境包括：
Java 8
Spark 2.1
面向的读者
如果你是一名开发者，有着机器学习和统计背景，但是受限于现有的、慢速的、基于小规模数据的机器学习工具，这本书适合你！在本书中，你会使用Spark创建可扩展的机器学习应用，用来支撑现代数据驱动商业。我们假定你已经了解机器学习的基本概念和算法，能够运行Spark（在集群或者本地运行），而且对Spark的各种基本库有一些基础的了解。
下载示例代码和彩图
本书的代码包在GitHub（https：GitHub.comPacktPublishingMastering-Machine-Learning-with-Spark-2.x）上也可以找到。来自其他书籍的代码和视频也可以在https：github.comPac-ktPublishing上找到。去看看吧！
本书提供一个PDF文件，它以彩图的格式包含了本书中所使用到的屏幕截图和图表。这些彩图可以帮助读者更好地理解输出中发生的变化。该PDF文件可以从https：www.packtpub.comsitesdefaultfilesdownloadsMasteringMachineLearningwithSpark2.x_ColorImages.pdf下载到。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.