新書推薦:
《
可转债——新手理财的极简工具
》
售價:HK$
66.7
《
新加坡教育:神话与现实
》
售價:HK$
98.9
《
“口袋中的世界史”第一辑·冷战中的危机事件
》
售價:HK$
299.0
《
绝美的奥伦堡蕾丝披肩编织
》
售價:HK$
181.7
《
狂飙年代:18世纪俄国的新文化和旧文化(第二卷)
》
售價:HK$
177.0
《
万有引力书系 纳粹亿万富翁 德国财富家族的黑暗历史
》
售價:HK$
112.7
《
中国常见植物野外识别手册:青海册
》
售價:HK$
78.2
《
三星堆对话古遗址(从三星堆出发,横跨黄河流域,长江流域,对话11处古遗址,探源多元一体的中华文明)
》
售價:HK$
89.7
|
編輯推薦: |
仅仅会Python编程是不够的。想成为一名优秀的数据分析工程师,还需要有全方位、透彻理解问题本质的能力,善于把实际的工作任务拆解成准确的数据问题,并运用相关的知识来解决。
本书恰好是从这个角度出发的,它条分缕析地帮助你认识任务的本质,教你从数据的角度来思考、拆解任务,并最终顺利地达成目标。
|
內容簡介: |
Python 已成为广受数据科学领域欢迎的开发语言。《Python绝技:运用Python成为*数据工程师》契合这一趋势,结合具体的业务场景,从数据思维的角度出发,剖析各业务环节中数据处理的策略、算法,并运用Python 代码呈现翔实的案例,构建出一个完整的数据分析体系。
在内容的组织和安排上,《Python绝技:运用Python成为*数据工程师》层次分明、详略得当:针对简单的数据分析工作,读者可以先浏览第1 章至第3 章;专职从事数据分析的工程师可以通篇阅读《Python绝技:运用Python成为*数据工程师》,以构建数据处理工程的完整知识框架;*后一章针对从事大数据分析的工程师提供了一些常见问题的解决思路和方法。
《Python绝技:运用Python成为*数据工程师》既适合刚接触数据工程的从业人员作为入门参考,也可以帮助具有一定经验的数据工程师搭建知识体系,洞悉业务场景中的数据奥秘,得心应手地运用数据指导业务。
|
關於作者: |
黄文青,目前在百度公司任职,从事大数据、机器学习方向的研究与学习。对于如果成为一名数据工程师,有自己独特的理解与实践。
|
目錄:
|
1 概述 1
1.1 何为数据工程师 1
1.2 数据分析的流程 3
1.3 数据分析的工具 11
1.4 大数据的思与辨 14
2 关于Python 17
2.1 为什么是Python 17
2.2 常用基础库 19
2.2.1 Numpy 19
2.2.2 Pandas 26
2.2.3 Scipy 37
2.2.4 Matplotlib 38
3 基础分析 43
3.1 场景分析与建模策略 43
3.1.1 统计量 43
3.1.2 概率分布 48
3.2 实例讲解 55
3.2.1 谁的成绩更优秀 55
3.2.2 应该库存多少水果 57
4 数据挖掘 60
4.1 场景分析与建模策略 60
4.1.1 分类 61
4.1.2 聚类 76
4.1.3 回归 86
4.1.4 关联规则 90
4.2 数据挖掘的重要概念 93
4.2.1 数据预处理 93
4.2.2 评估与验证 97
4.2.3 Bagging 与Adaboost 99
4.2.4 梯度下降与牛顿法 102
4.3 实例讲解 105
4.3.1 信用卡欺诈监测 105
4.3.2 员工离职预判 110
5 深度学习 114
5.1 场景分析与建模策略 115
5.1.1 感知机 115
5.1.2 自编码器 119
5.1.3 限制玻尔兹曼机 123
5.1.4 深度信念神经网络 127
5.1.5 卷积神经网络 129
5.2 人工智能应用概况 137
5.2.1 深度学习的历史 137
5.2.2 人工智能的杰作 140
5.3 实例讲解 146
5.3.1 学习识别手写数字 146
5.3.2 让机器认识一只猫 151
6 大数据分析 160
6.1 常用组件介绍 160
6.1.1 数据传输 165
6.1.3 数据计算 174
6.1.4 数据展示 180
6.2 大数据处理架构 188
6.2.1 Lambda 架构 189
6.2.2 Kappa 架构 192
6.2.3 ELK 架构 193
6.3 项目设计 194
参考文献 202
|
內容試閱:
|
数据分析、数据挖掘、深度学习及云计算,是当前最热门的技术领域。1830年前后,Gauss、Legendre 等数学家奠基了数据分析的基础理论;1943 年,心理学家Warren McCulloch 和数理逻辑学家Walter Pitts 首次提出神经网络;19 世纪80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷积神经网络;2006 年,深度置信网络研究成果发表。至此,数据建模理论研究的宏观大厦已初见雏形。
历史是如此的巧合,正当需要海量数据集和工程技术方案来处理数据时,云计算应运而生。2003 年,谷歌发表关于Google File System、Google Bigtable 及MapReduce 三篇论文,让大数据处理技术风靡全球。以此为基础,2010 年前后,整个云计算的概念及技术体系已经非常完善了。
数据理论的完善、工程技术的发展与无数创意的结合,使得2010 年以后,整个人类社会进入了数据时代。无论是精细化运营,还是人工智能产品,对数据的应用无处不在;无论是政府机构,还是私有的大、中、小型企业,使用数据的热情都达到空前的高度。
2014 年,我加入百度公司,从事大数据处理及数据建模等相关工作。回首过往,在该领域的几年中,我经历了云计算从雾里看花到如今的方兴未艾;人工智能的初现端倪到如今的高潮迭起。作为一名前线的数据工程师, 我深刻认识到,对我及大多数工程师而言,既无法像Jeff Dean 等一样提出经典的大数据计算模型;也无法像Hinton、Yann LeCun 一样提出具有深远影响的建模算法。我们所要做的,就是学习与汲取当前的理论与技术,结合应用领域,实现工程应用。这也是我写本书的初衷,希望能从宏观框架上梳理已有的数据分析理论与工程实施技术,并搭建相对系统的知识体系;同时,阐述工作实践中遇到的问题及解决的思路。
Python 简洁易懂的语法、丰富的类库、与大数据组件的无缝集成等诸多特点,使其成为数据工程师的首选编程语言。当然,只是掌握Python 还完全不足以成为顶级数据工程师,因此,本书介绍数据处理知识体系,并以Python 实现相关代码示例,力求让读者能使用Python 完成数据处理的各个环节。
本书的第1 章和第2 章,简要说明了数据处理领域的基本概念,旨在让读者对数据处理工作有宏观的了解。第3 章~第5 章,主要讲述数据分析理论。笔者按照难易程度,将其划分成三个部分,即基础分析、数据挖掘和深度学习。第6章针对大数据分析,介绍了在工程实施过程中需要用到的工程组件和架构模式,并以一个具体的案例说明整个数据工程的实施流程。
本书适合以下读者阅读:① 对人工智能和云计算感兴趣的读者;② 刚进入数据处理领域的IT 工程师;③ 希望从宏观上梳理数据处理知识体系的读者;④ 用Excel、SPSS、Python 做过数据分析的数据分析师;⑤ 应用过HDFS、Kafka等大数据组件的IT 工程师。
本书能够完稿,得益于外界诸多的帮助与指导。感谢数据领域的先驱者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他们的著作是数据时代最重要的理论依据;感谢在百度工作中遇到杨振宇、李华青、王珉然、陈合等许多优秀的同事和领导,在和他们一起试错、交流的过程中,让我取得巨大的进步;感谢本书的编辑刘皎,在她不厌其烦地督促下,本书才从凌乱的只言片语中编辑成书;特别感谢女友孙万兴,在本书的撰写过程中给予的谅解与支持。
|
|