新書推薦:
《
强者破局:资治通鉴成事之道
》
售價:HK$
82.8
《
鸣沙丛书·鼎革:南北议和与清帝退位
》
售價:HK$
121.0
《
从康德到黑格尔的发展:兼论宗教哲学(英国观念论名著译丛)
》
售價:HK$
62.1
《
突破不可能:用特工思维提升领导力
》
售價:HK$
79.4
《
王阳明大传:知行合一的心学智慧(精装典藏版)
》
售價:HK$
227.7
《
失衡与重塑——百年变局下的中国与世界经济
》
售價:HK$
135.7
《
不被定义的年龄:积极年龄观让我们更快乐、健康、长寿
》
售價:HK$
79.4
《
南方谈话:邓小平在1992
》
售價:HK$
82.8
編輯推薦:
CDA数据分析师丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析,推断性分析,参数估计,假设检验,方差分析,回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SAS EG实现》中利用SAS EG和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SAS EG进阶》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论技术应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
內容簡介:
《胸有成竹!数据分析的SAS EG进阶》共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数据分析方法概述,第2章至第4章为横截面数据分析方法。第5章为时间序列分析方法。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。
《胸有成竹!数据分析的SAS EG进阶》是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据分析的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及到,而且都辅以图形作形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。
關於作者:
人大经济论坛:于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内最大的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和最具影响力的经管类网络社区。
人大经济论坛从2006年起在国内最早开展数据分析培训,累计培训学员数万人,在大数据的趋势背景下,作为Certified Data Analyst Institute(注册数据分析师协会,简称CDA协会)的中国唯一授权中心,根据CDA协会的数据分析师LevelⅠ(业务分析师)、Level Ⅱ(建模分析师)、Level Ⅲ(数据专家)的等级标准,致力于培养正规化、科学化、专业化的数据分析师队伍,为企事业单位输送更多优秀数据分析人才。(Certified Data Analyst Institute,亦称“注册数据分析师协会”,成立于美国特拉华州,主要宗旨为汇聚国际先进的数据分析技术,建设国际性规范化数据分析师职业标准,推进数据分析师的行业发展及认证工作,目前标准行业认证为CDA数据分析师)
常国珍,北京大学光华管理学院会计学在读博士生,北京大学人口研究所社会学硕士,河北联合大学土木工程专业学士。德勤管理咨询公司兼职咨询顾问,SAS资深培训讲师。曾以数据挖掘工程师身份就职于亚信科技(中国)有限公司市场部。具有八年的数据挖掘实战经验,主要从事电信和银行业数据挖掘工作。项目涉及客户精准营销、信用评估、欺诈侦测和流失预警等,尤其熟悉银行个人客户精准营销的建模工作。
目錄 :
第1章 数据分析方法概述 1
1.1 数据分析概述 2
1.1.1 数据分析过程 2
1.1.2 数据分析的商业驱动 3
1.2 数据分析与挖掘方法分类介绍 5
1.2.1 描述性——无监督的学习 7
1.2.2 预测性——有监督的学习 10
1.3 数据分析的方法论 12
1.3.1 数据挖掘的项目管理方法论:CRISP-DM 13
1.3.2 数据整理与建模的方法论:SEMMA 14
1.3.3 SAS EG任务菜单编排与SEMMA之间的关系 16
第2章 描述数据特征 18
2.1 认识数据类型 19
2.2 单变量描述统计方法 20
2.2.1 分类变量的描述 21
2.2.2 连续变量的描述 21
2.3 创建频数报表 31
2.4 生成汇总统计量 33
2.5 用汇总表任务生成汇总报表 35
2.6 绘制条形图 37
2.7 绘制地图 41
第3章 描述性数据分析挖掘方法 45
3.1 客户细分方法介绍 46
3.1.1 客户细分的意义 46
3.1.2 根据客户利润贡献进行划分 47
3.1.3 根据个人或公司的生命历程进行划分 48
3.1.4 根据客户的产品偏好进行划分 49
3.1.5 根据客户交易消费行为进行划分 50
3.1.6 根据客户的多维行为属性细分 51
3.1.7 展现客户产品结构的战略细分 51
3.1.8 客户细分:综合运用 52
3.2 连续变量间关系探索与变量约减 52
3.2.1 多元统计基础 52
3.2.2 多元变量压缩的思路 56
3.2.3 主成分分析 58
3.2.4 因子分析 66
3.3 聚类分析 72
3.3.1 基本逻辑 74
3.3.2 系统聚类 74
3.3.3 快速聚类 81
第4章 预测性数据分析方法 87
4.1 构造对连续变量的预测模型 88
4.1.1 方差分析(ANOVA) 88
4.1.2 线性回归 99
4.1.3 线性回归的模型诊断 111
4.2 构造对二分类变量的预测模型 119
4.2.1 分类变量之间的相关性检验 119
4.2.2 逻辑回归 123
4.3 数据挖掘流程及示例 135
第5章 时间序列 143
5.1 认识时间序列和趋势分解法 144
5.2 平稳时间序列(ARMA)模型设定与识别 147
5.2.1 平稳时间序列定义 147
5.2.2 平稳时间序列模型建模 148
5.2.3 ARMA的模型设定与识别 148
5.3 非平稳时间序列(ARIMA)模型 152
5.4 时间序列建模步骤 153
附录A 数据说明 160
附录B CDA(注册数据分析师)致力于最好的数据分析人才建设 167
参考文献
內容試閱 :
前言
感谢您选择“CDA数据分析师”LevelⅠ学习系列丛书”之《胸有成竹!数据分析的SAS EG进阶》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SAS EG实现》中利用SAS EG和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SAS EG进阶》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论技术应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据分析的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及到,而且都辅以图形作形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件和与商业数据分析主题的匹配。实践教学中,发现业务经验丰富和有较好商业模式理解的学员,在学习数据分析有更好的效果,这主要原因可能是因为这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单的模仿和套用数学公式。
本书以SAS Enterprise Guide以下简称SAS EG为演示软件,但是操作方法可以自由的转换到SPSS Statistics这类图形化统计软件,同时也是学习SAS编程的捷径。
工具介绍
SAS EG是一个以项目为导向的Windows应用软件,它被用于实现对SAS系统大多数分析能力的快速访问。它通常会被统计专家、业务分析员以及 SAS程序员使用。利用SAS多平台的强大能力,SAS EG能够使用户访问本地或SAS服务器上的数据、管理数据、编写基本报表和汇总,做基本和复杂的数据分析,运用最高质量的SAS图形能力,最后将结果输出或发送到SAS服务器或其他基于服务器或Windows的应用中。在SAS EG中进行的工作也可以容易地被其他的EG使用者分享。通过生成SAS代码,大多数在SAS EG中进行的工作也可以被EG外部的SAS使用者共享。
SAS EG面向企业中数据轻度使用客户,它的同类产品是SPSS。而与R、Stata和Eviews等科研教学类软件有明显不同。SAS EG基本继承了SAS Base的所有功能,可以方便地调用其他模块的程序。可以说在商业数据分析领域,SAS EG是SAS Base的升级换代产品。SAS EG和SPSS类似,都是可以直接使用鼠标点击操作的,这降低了使用人员的入门难度,而且记录脚本可以便于使用者学习SAS语言。它的文档管理功能是目前统计软件中最强大的。其中的流程图使单次分析过程一目了然,这与SPSS等有明显差别。SPSS较难记录分析过程,而SAS EG可以将分析过程记录下来,便于使用者反复使用和组织内部共享分析文档。在统计方法方面,SAS EG的菜单中实现的统计方法少而精炼,满足90%以上的商业分析需求,而且其拓展性强大,可以调用SAS其他模块的过程,可以实现SPSS无法很好实现的时间序列和面板数据分析。在和其他软件衔接方面,SAS EG以SAS Base为基础,而SAS Base在某些公司作为ETL工具,可见SAS具有强大的数据管理功能,可以和企业内部数据库做透明访问。
目前各大金融机构、国有企业和著名外企,尤其是咨询公司都在使用SAS产品。SAS Base是面向数据处理程序员的,入门难度较大,只在专门的数据分析部门使用。而SAS EG的用户多为业务部门的工作人员,入门难度较低。在公司内部培训的过程中,发现公司数据分析人员和业务人员对学习SAS EG有较大兴趣,部门领导也倾向于让员工多学习SAS
EG的课程。而且SAS公司也逐步将其部分产品免费化,其中University-Edition就是一个有益的尝试,其操作方式和SAS
EG类似。相信在统计技能大众化的今天,SAS EG有着巨大的发展潜力。
当前R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就已经消逝殆尽。真正商业数据分析的目的是为了业务的分析需求,构造稳健的数据挖掘模型。数据挖掘产品的质量是通过对分析流程的严格掌控而得以保障的。SAS EG产品正是针对分析流程设计的,这对于数据分析初学者大有裨益。而开源软件在这方面基本上没有支持,而要求其使用者具有丰富的实战经验。因此使用SAS EG这个产品作为演示工具,无论将来读者使用何种分析工具,都可以通过本书的学习获得分析流程的经验。
阅读指南
本书包括5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数据分析方法概述,第2章至第4章为横截面数据分析方法。第5章为时间序列分析方法。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。
详细的章节内容如下。
第1章 数据分析方法概述
数据分析的目的是使工作更有效率、资源分配更合理、对事物的发展脉络更为清晰或是提高对未来预测的准确性。阅读本章可以使读者在具体接触数据分析之前,了解整个数据分析的脉络,明确将要学习的内容。
第2章 描述数据特征
数据统计指标描述是数据分析的重点,对数据的直觉也是通过对数据的探索建立起来的。数据可视化则是将统计指标转换成图形和图表。通过本章的学习,读者可以掌握完成一份市场分析报告的基本技能。
第3章 描述性数据分析方法
该部分是上一章的自然延伸,是大数据背景之下描述类数据分析方法的主要手段。分别针对变量过多和观测样本过多这两个问题,进行变量和观测这两个维度的信息压缩。通过本章的学习,可以完成客户画像、因素分析等较高质量的分析报告。
第4章 预测性数据分析方法
传统意义上的数据分析建模特指预测性数据分析。在完整本章的学习之后,对于横截面数据分析方法就算结束了。通过本章的学习,可以构造精细的精准营销、流失预警和信用评级等分类模型。
第5章 时间序列
本章主要介绍两种单变量时间序列分析方法。分别是趋势分解法和基于动态差分方程的ARIMA法。对于非统计学背景的读者,只要学会分析软件提供的图表就可以掌握该分析方法,满足一般的商业指标预测需要。
为方便读者学习,本书提供了书中实例的源文件下载,请读者进入人大经济论坛(http:bbs.pinggu.org),注册后搜索“CDA教材源文件”关键词下载相应的源文件。
本书特点
本书作为市场上第一本以SAS EG为统计工具的面向商业数据分析的书籍,和其他统计软件图书有很大的不同,文体结构新颖,案例贴近实际,讲解深入透彻。主要表现在以下几方面:
场景式设置
本书从实际电信、银行等商业案例中进行精心归纳、提炼出各类数据分析的运用场景,方便读者搜寻与实际工作相似的问题。
开创式结构
本书案例中的“解决方案”环节是对问题的思路解说,结合“操作方法”环节中的步骤让人更容易理解。“原理分析”环节则主要解释所使用代码的工作原理或者详细解释思路。“知识扩展”环节包括与案例相关的知识点的补充,可拓展读者的视野,同时也有利于理解案例本身的解决思路。
启发式描述
本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现规律、总结规律和运用规律,从而启发读者快速找出问题的解决方法。
学习方法
俗话说打把势全凭架势,像不像,三分样。只有对分析的流程熟悉了,才能实现从模仿到灵活运用的提升。在产品质量管理方面,对流程的掌控是成功的关键,在数据分析当中,流程同样是重中之重。数据分析是一个先后衔接的过程,一个步骤的失误会带来完全错误的结果。一个分析的流程大致包括抽样、数据清洗、数据转换、建模和模型评估这几个步骤。如果抽样中的取数逻辑不正确,就有可能使因果关系倒置,得到完全相反的结论。数据转换方法如果选择不正确,模型就难以得到预期的结果。而且,数据分析是一个反复试错的过程,每一步都要求有详细的记录和操作说明,否则分析人员很可能迷失方向。
学习数据分析最好的方法就是动手做一遍,本书语言通俗但高度凝炼,很少有公式,这会让读者产生麻痹大意的思想,如果不动手做一遍,很难体会到书中表述的思想。本书按照相关商业数据分析主题提供了相应的演练用数据,也同时给出了相关方面的参考资料,供学员学习。
售后服务
本书读者可以在人大经济论坛的“数据挖掘与商业智能(http:bbs.pinggu.orgforum-133-1.html)” 版块就书中的问题进行提问,也欢迎大家就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为guozhen.c@gmail.com。
致谢
本书由人大经济论坛策划,常国珍负责编写和完成统稿。
丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、官杨、张童等多位编辑的心血,特在此表示衷心的感谢!
为保证丛书的质量,使其更贴近读者,我们组织了人大经济论坛的多位版主和高级会员参与了本书的预读工作,他们是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了本次预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!