新書推薦:
《
首辅养成手册(全三册)(张晚意、任敏主演古装剧《锦绣安宁》原著小说)
》
售價:HK$
124.2
《
清洁
》
售價:HK$
66.7
《
组队:超级个体时代的协作方式
》
售價:HK$
79.4
《
第十三位陪审员
》
售價:HK$
55.2
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
159.9
《
Python贝叶斯深度学习
》
售價:HK$
91.8
《
文本的密码:社会语境中的宋代文学
》
售價:HK$
69.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
80.5
|
編輯推薦: |
亚马逊资深数据科学家里面博士、统计之都创始人谢益辉博士抢先品读
当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型,如神经网络,深度学习(实际上就是多层神经网络)。各路媒体和砖家深谙吃瓜群众不明觉厉的心态,所以就像个妓院头牌似的越发摆谱。作者并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切;只想尽可能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得读者们能够少走弯路。
|
內容簡介: |
数据科学家目前是北美*热门的职业之一,平均年薪突破10万美元。但数据科学并不是一个低门槛的行业,除了对数学、统计、计算机等相关领域的技术要求以外,还要相关应用领域的知识。本书的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学能解决的问题,数据科学家需要的技能,及背后的“分析哲学”。对于新手而言,一开始就直奔艰深的理论,很容易因为困难而失去兴趣最终放弃。因此本书倡导的是一种循序渐进的启发教学路径,着重在于数据科学的实际应用,让读者能够重复书中的结果,学习数据分析技能最好的方式是实践!为了平衡理论和应用,书中包括了一些选学小节,用来介绍更多的模型数理背景或给出必要的参考资料来源。抽丝剥茧介绍技术内核,帮助大家知其然,同时知其所以然。希望笔者在北美从事数据科学工作多年踏遍大大小小不计其数的坑换来的经验,能够帮助读者更加顺利地成为数据科学家!
|
關於作者: |
2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科,爱荷华州立大学统计学院硕士和博士。曾任爱荷华州立大学兽医学院统计咨询师2009-2013及商学院分析咨询师2012-2013。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。
|
目錄:
|
第1章白话数据科学1
1.1什么是数据科学3
1.2什么是数据科学家5
1.2.1数据科学家需要的技能6
1.2.2数据科学算法总结10
1.3数据科学可以解决什么问题20
1.3.1前提要求20
1.3.2问题种类22
1.4小结25
第2章数据集26
2.1服装消费者数据26
2.2航空公司满意度调查33
2.3生猪疫情风险预测数据37
第3章数据分析流程41
3.1从问题到数据42
3.2从数据到信息44
3.3从信息到行动46
第4章数据预处理47
4.1介绍47
4.2数据清理50
4.3缺失值填补52
4.3.1中位数或众数填补53
4.3.2K-近邻填补54
4.3.3装袋树填补56
4.4中心化和标量化56
4.5有偏分布59
4.6处理离群点63
4.7共线性66
4.8稀疏变量70
4.9编码名义变量71
4.10小结73
第5章数据操作75
5.1数据读写76
5.1.1取代传统数据框的tibble对象76
5.1.2高效数据读写:readr包80
5.1.3数据表对象读取83
5.2数据整合91
5.2.1base包:apply91
5.2.2plyr包:ddply函数93
5.2.3dplyr包96
5.3数据整形102
5.3.1reshape2包102
5.3.2tidyr包105
5.4小结107
第6章基础建模技术109
6.1有监督和无监督109
6.2误差及其来源111
6.2.1系统误差和随ji误差111
6.2.2因变量误差117
6.2.3自变量误差121
6.3数据划分和再抽样122
6.3.1划分训练集和测试集123
6.3.2重抽样131
6.4小结135
第7章模型评估度量136
7.1回归模型评估度量136
7.2分类模型评估度量139
7.2.1Kappa统计量141
7.2.2ROC曲线143
7.2.3提升图145
7.3小结146
第8章特征工程148
8.1特征构建149
8.2特征提取152
8.2.1初步探索特征153
8.2.2主成分分析158
8.2.3探索性因子分析163
8.2.4高维标度化167
8.2.5知识扩展:3种降维特征提取方法的理论171
8.3特征选择177
8.3.1过滤法178
8.3.2绕封法188
8.4小结195
第9章线性回归及其衍生196
9.1普通线性回归197
9.1.1 zui小二乘线性模型197
9.1.2回归诊断201
9.1.3离群点、高杠杆点和强影响点204
9.2收缩方法205
9.2.1岭回归205
9.2.2Lasso209
9.2.3弹性网络212
9.3知识扩展:LASSO的变量选择功能213
9.4主成分和偏最小二乘回归215
9.5小结221
第10章广义线性模型压缩方法222
10.1初识GLMNET223
10.2收缩线性回归227
10.3逻辑回归235
10.3.1普通逻辑回归235
10.3.2收缩逻辑回归236
10.3.3知识扩展:群组lasso逻辑回归239
10.4收缩多项回归243
10.5泊松收缩回归246
10.6小结249
第11章树模型250
11.1分裂准则252
11.2树的修剪256
11.3回归树和决策树260
11.4装袋树268
11.5随ji森林273
11.6助推法277
11.7知识扩展:助推法的可加模型框架283
11.8知识扩展:助推树的数学框架286
11.8.1数学表达286
11.8.2梯度助推数值优化289
11.9小结290
第12章神经网络292
12.1投影寻踪回归(PROJECTION PURSUIT REGRESSION)293
12.2神经网络(NEURAL NETWORKS)296
12.3神经网络拟合299
12.4训练神经网络300
12.5用CARET包训练神经网络302
12.6小结311
参考文献312
|
內容試閱:
|
作者自序 首先,感谢你翻开这本书!
这是一本什么书?
这是一本关于数据的科学和艺术的书。书中介绍了数据科学这个行业、数据科学家需要的技能,以及分析哲学。书中对最常用、最有效的模型进行了展开。数据科学这个行业的本质是通过分析数据解决实际问题,所以本书很看重读者能够真正将书中介绍的知识付诸实践。书中的数据全部都是公开的,书中的代码,建模过程都可以重复。一切不能重复的分析都是耍流氓!
l 为什么写这本书?
当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型(如神经网络,深度学习实际上就是多层神经网络)。各路媒体和砖家深谙吃瓜群众不明觉厉的心态,所以就像个妓院头牌似的越发摆谱。曾经的我也是吃瓜群众中的一员,妥妥地迷失在这信息时代造成的漫天泡沫中,仿佛卡在一扇旋转门里,转了很久不知道去哪。了解一件事情最有效的方法就是实践。很幸运的是,在过去的4年里,我主导了大大小小各种分析项目。正是这些实践经验造就了这本书。我并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切。只想尽我所能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得你们能够少走弯路。
l 为什么学习数据科学?
这个问题的答案因人而异。从事某个行业和同某人结婚一样,都有很大的随机性和主观性。所以下面只是我个人喜欢这个行业的理由。
1. 我把数据科学家定义为匠人。个人很享受作为一个匠人,统帅三军之能不如薄技在身。当你相信自己在某些领域有专长并且因此产生自我价值感时,就会有激情。激情是有吸引力的,就像爱一样,这是一种值得为之奋斗的感觉。
2. 这个世界上的手艺很多,为什么我做的是数据科学?因为我觉得数据科学这门手艺能够帮你培养在当今信息海啸中独善其身的技能独立思考的能力。用数据进行决策能够让你看问题更清晰,有逻辑,理性客观。这种能力不是只有数据分析师才需要掌握的,理性思考是贯穿很多人一生的必修课,尤其是在互联网时代,通过理性思考甄别过滤信息比之前任何时候都重要。此外,人的大脑是有连贯性的,已经习得某项技能的人,再学另外一项技能的时候,学得会比上一次快一些,因为学习经验在起作用。而若是习得的基础知识是可积累、可扩展的,那么随后可能习得的技能可变现价值就会越来越高。通过数据分析进行决策就是一门可扩展性极高的技能,几乎可以扩展到这个数据时代的方方面面,而且随着社会的数据化趋势,这种可扩展性产生的复利效应将越来越大有着可怕的潜力。
3. 数据科学是美的,美只有爱知道,所以热爱是选择这个行业的主要理由。不知道从什么时候开始,中国互联网上开始流传一句话:生活不止眼前的苟且,还有诗和远方。其实问题不在于缺少诗和远方,而在于你以为眼前的是苟且。如果你热爱自己当前所做的事情,那就是诗,就是远方。如果你不热爱自己所做的事情,在你找到自己真正热爱的事情之前,到哪里都是苟且。我希望阅读这本书的所有人都能够在数据分析中找到乐趣。归根结底,快乐并不是什么深奥的事情,无非是猫吃鱼,狗吃肉,奥特曼打小怪兽。
最后,感谢父母的爱和支持,感谢你们帮助我找到自己热爱的东西。感谢Scott Iverson,他是我在市场营销领域的导师,没有他,我无法将数据科学很好地应用于市场营销。感谢王正林以及所有为本书出版做出努力的人,没有你们就没有本书的问世。再次感谢你选择本书!
前 言
数据科学家目前是北美最热门的职业之一,平均年薪突破10万美元。但数据科学并不是一个低门槛的行业,除了对数学、统计、计算机等相关学科技术的要求以外,还需要相关应用领域的知识。这个职业听起来很酷,但如果你对数据分析没有兴趣的话,你也会觉得这个行业很苦。这里我默认本书的读者都至少是对这个行业有兴趣和激情的。本书的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学家需要的技能,及背后的分析哲学。书中会对部分最常用,有效的模型加以展开。关于模型技术部分,我希望读者有初步统计知识,最好知道线性回归。
数据科学家这个行业的本质是应用。市面上有很多文章、出版物介绍各种数据模型,大多数此类书籍并不能让读者重复书中所述的分析过程,对于书中介绍的知识,读者真正实践起来会遇到很多困难。本书着重在于数据科学的实际应用,让读者能够重复书中的结果,这也用到了统计软件R的自动化报告功能。可能有读者会问,为什么要可重复?根据个人经验,学习数据分析技能最好的方式是实践:动手重复分析的过程,检查分析结果,发现问题后再去查询相关模型的背景技术知识。这一过程得到的学习效果远远超过死磕一本大部头的技术理论书籍,但磕了一年之后发现碰到实际问题不知道该用什么工具实践这些书中讲到的模型方法。而且对于新手而言,一开始就直奔艰深的理论,很容易因为困难而失去兴趣最终放弃。本书倡导的是一种循序渐进的启发性教学路径,从实际问题入手,抽丝剥茧进入技术内核。
本书主要部分将避免过多的数学公式,但难免有例外。我们在一些地方提到方法背后的技术细节是为了帮助读者理解模型的长处和弱点,而非单纯地介绍数理统计知识。这并不意味着这些数理背景知识不重要,相反尽可能多地了解模型背后的数学很重要且有意义,为了平衡理论和应用,我们会在有的章中加一些选学小节,用来介绍更多的模型数理背景或给出必要的参考资料来源,如果不感兴趣的读者可以跳过这些小节,不会影响本书主要部分的阅读。书中的每一章都只是冰山一角,我并不试图彻底地介绍模型,而是选择性地解释其中部分我觉得重要的地方。我会尽量将想要强调的概念和内容在分析数据的过程中体现出来,而不仅仅是数学公式符号表达。想要成为数据科学家,仅靠阅读本书是远远不够的,读者需要进一步查阅书中提到的参考资料,或者选修相关课程。
随着计算机科学的发展,不仅收集存储的数据增加了,分析数据的软件包也不断推陈出新,这极大地降低了应用统计学习方法的壁垒。现在不管会建模的不会建模的,大都听过线性回归,这个经典统计模型可追根溯源至19世纪Legendre和Gauss发表的若干关于最小二乘的论文。现在你要通过最小二乘拟合一个线性模型那是就动动指头两秒钟的事情。可在那个计算器都没有的时代,能优化误差平方和这样的东西的大牛都会被认为是火星人。那个年代美国宪法规定每十年必须进行一次人口普查,1880年排山倒海的普查资料花了8年时间处理分析,一个名叫Herman Hollerith的品学兼优的美国少年跳出来,在1890年发明了一种排序机,利用打孔卡储存资料,再由机器感测卡片,协助人口调查局对统计资料进行自动化制表,结果不出3年就完成了人口普查工作,Herman同学也顺带用这个发明拿个了工程学博士学位。你可能要问,计算能力这么落后那这伙数学家捣鼓出来的方法谁用?天文学家用。线性模型最早用在天文学研究中。研究中使用统计方法的,那时绝对是小众边缘群体,全都可以贴上火星制造的标签。然后盼星星盼月亮我们终于在1912年6月等到了图灵。
若不是图灵这个孩子被性取向拖了后腿,数据科学家这个行业早几十年可能就火了。当然,统计泰斗们也没有闲着,Fisher在1936年提出了线性判别分析。在20世纪40年代,又一家喻户晓的经典统计模型逻辑回归问世了!在20世纪70年代早期,Nelder和Wedderburn发明了广义线性模型这个词,这是一个更大的统计模型框架,它将随机分布函数和系统效应(非随机效应)通过一个连接函数(link function)连起来,之前的线性模型和逻辑回归都是该框架下的特例。到70年代末,可以用来分析数据的方法已经有好些了,但这些方法几乎都是线性模型,因为在那时,拟合非线性关系的计算量相对当时的计算机水平来说还是太大了。等到80年代,计算机技术终于发展到可以使用非线性模型了。Breiman, Fridman, Olshen和Stone提出了分类回归树。随后的一些机器学习方法进一步丰富了数据科学家可以使用的工具集。计算机软件的飞速发展使得这些方法模型得以应用在更加广泛的领域,应用涵盖了商业、健康、基因、社会心理学研究和政策分析,等等。数据科学家这个行业随着数据量的增加和分析软件的进步不断地向前发展。
关于分析软件,本书使用R。选择R语言的原因如下:
1. R免费,且可以在不同操作系统上使用。
2. R开源、可扩展:它在通用公共许可(General Public License)下发行,在此构架下任何人可以检查修改源程序。并且R语言含有很多最新的模型。
3. R有强大图形可视化和自动化报告功能。
4. 笔者10年使用R的经验证明:无论在学术还是业界,这都是非常有效的工具。
网上有大量的R入门教程,关于用R进行数据分析的书也有好些,所以这里就不重复造轮子了,不熟悉R语言的读者可以先学习相关资料,这里我假设读者已经有一定的R语言基础。
本书布局如下,先介绍数据科学家这个行业的分析哲学和数据分析的一般流程。这是非技术的部分,但对于从业者来说非常重要,它帮助你对这个职业设定一个合理的预期。其中会讨论数据科学家需要的技能。之后的章节会对这里提到的部分我觉得重要的技能进一步展开讨论,由于篇幅所限,不可能详细讨论开始这几章中提到的所有技能。随后开始进入技术部分,讲分析环节的第一步数据预处理,这一步虽然不是正式建模,但却是整个分析过程中最耗时的一个环节。这步没有到位将严重影响模型质量。也正是因为预处理重要,所以单独作为一个章节,没有和章其他建模技术合并起来。第6章基础建模技术介绍的是一些在建模过程中需要的辅助性的技术以及建模需要注意的问题。之后正式介绍各种笔者在从业过程中经常用到的模型。
本书用来展示模型的数据大部分是通过R得到的模拟数据集。为什么用模拟数据而不是真实数据呢?原因如下:
1. 你可以控制数据生成过程,免去了传输下载数据的麻烦。
2. 你可以根据需要改变生成数据的代码,得到新的数据,观察数据变化对模型结果的影响。
3. 对于自己创建的数据,我们知道数据要表达的真实信息,那么就可以评估分析使用的模型的准确性,然后再用于真实数据。
4. 可以通过使用模拟数据在拿到真实数据前准备好代码模板,这样,当你有真实数据时就可以迅速进行分析。
5. 通过重复数据模拟的过程可以加深对模型假设的理解。
同一章后面的代码通常建立在之前代码上,但每章的代码自成系统,也就是说你不需要以其他章节代码运行结果为前提重复某章的代码。有一定R语言基础的读者可以通过学习生成数据的代码了解数据的结构以及模型假设。R语言的新手学习这些代码可能会觉得太困难,没有关系,你们可以跳过生成数据的细节,只需要了解数据的语境,都有哪些变量以及变量类型。你可以直接从网站上读取这些数据。
现在开始我们的旅程吧!
|
|