新書推薦:
《
第十三位陪审员
》
售價:HK$
55.2
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:HK$
159.9
《
Python贝叶斯深度学习
》
售價:HK$
91.8
《
文本的密码:社会语境中的宋代文学
》
售價:HK$
69.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
80.5
《
有趣的中国古建筑
》
售價:HK$
68.8
《
十一年夏至
》
售價:HK$
78.2
《
如何打造成功的商业赛事
》
售價:HK$
91.9
編輯推薦:
实用的Python开源模块的大集合;
简单易懂、示例丰富的数据分析教程;
掌握数据可视化、机器学习等高端主题;
新手变身数据分析专家的上好读本;
內容簡介:
作为一种高级程序设计语言,Python凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言。同时,Python语言的数据分析功能也逐渐为大众所认可。
本书是一本介绍如何用Python进行数据分析的学习指南。全书共12章,从Python程序库入门、NumPy数组、matplotlib和pandas开始,陆续介绍了数据加工、数据处理和数据可视化等内容。同时,本书还介绍了信号处理、数据库、文本分析、机器学习、互操作性和性能优化等高级主题。在本书的结尾,还采用3个附录的形式为读者补充了一些重要概念、常用函数以及在线资源等重要内容。
本书示例丰富、简单易懂,非常适合对Python语言感兴趣或者想要使用Python语言进行数据分析的读者参考阅读。
關於作者:
Ivan Idris,实验物理学硕士,学位论文侧重于应用计算机科学。毕业后,他曾经效力于多家公司,从事Java开发、数据仓库开发以及QA分析等方面的工作;目前,他的兴趣主要集中在商业智能、大数据和云计算等专业领域。
Ivan Idris以编写简洁可测试的程序代码以及撰写有趣的技术文章为乐,同时也是Packt出版社NumPy Beginner''s Guide-Second Edition、NumPy Cookbook和Learning NumPy Array等书籍的作者。读者可以访问ivanidris.net获取更多关于他的信息。
目錄 :
目录
第1章 Python程序库入门1
1.1 本书用到的软件2
1.1.1 软件的安装和设置2
1.1.2 Windows平台2
1.1.3 Linux平台3
1.1.4 Mac OS X平台4
1.2 从源代码安装NumPy、SciPy、matplotlib和IPython6
1.3 用setuptools安装7
1.4 NumPy数组7
1.5 一个简单的应用8
1.6 将IPython用作shell11
1.7 学习手册页13
1.8 IPython notebook14
1.9 从何处寻求帮助和参考资料14
1.10 小结15
第2章 NumPy数组16
2.1 NumPy数组对象16
2.2 创建多维数组18
2.3 选择NumPy数组元素18
2.4 NumPy的数值类型19
2.4.1 数据类型对象21
2.4.2 字符码21
2.4.3 Dtype构造函数22
2.4.4 dtype属性23
2.5 一维数组的切片与索引23
2.6 处理数组形状24
2.6.1 堆叠数组27
2.6.2 拆分NumPy数组30
2.6.3 NumPy数组的属性33
2.6.4 数组的转换39
2.7 创建数组的视图和拷贝40
2.8 花式索引41
2.9 基于位置列表的索引方法43
2.10 用布尔型变量索引NumPy数组44
2.11 NumPy数组的广播46
2.12 小结49
第3章 统计学与线性代数50
3.1 Numpy和Scipy模块50
3.2 用NumPy进行简单的描述性统计计算55
3.3 用NumPy进行线性代数运算57
3.3.1 用NumPy求矩阵的逆57
3.3.2 用NumPy解线性方程组59
3.4 用NumPy计算特征值和特征向量61
3.5 NumPy随机数63
3.5.1 用二项式分布进行博弈63
3.5.2 正态分布采样66
3.5.3 用SciPy进行正态检验67
3.6 创建掩码式NumPy数组70
3.7 小结75
第4章 pandas入门76
4.1 pandas的安装与概览77
4.2 pandas数据结构之DataFrame78
4.3 pandas数据结构之Series81
4.4 利用pandas查询数据85
4.5 利用pandas的DataFrame进行统计计算89
4.6 利用pandas的DataFrame实现数据聚合91
4.7 DataFrame的串联与附加操作95
4.8 连接DataFrames96
4.9 处理缺失数据问题99
4.10 处理日期数据102
4.11 数据透视表106
4.12 访问远程数据107
4.13 小结109
第5章 数据的检索、加工与存储110
5.1 利用NumPy和pandas对CSV文件进行写操作110
5.2 NumPy.npy与pandas DataFrame112
5.3 使用PyTables存储数据115
5.4 Pandas DataFrame与HDF5仓库之间的读写操作118
5.5 使用pandas读写Excel文件120
5.6 使用REST Web服务和JSON123
5.7 使用pandas读写JSON124
5.8 解析RSS和Atom订阅126
5.9 使用Beautiful Soup解析HTML127
5.10 小结134
第6章 数据可视化136
6.1 matplotlib的子库137
6.2 matplotlib绘图入门137
6.3 对数图139
6.4 散点图141
6.5 图例和注解143
6.6 三维图145
6.7 pandas绘图148
6.8 时滞图150
6.9 自相关图151
6.10 Plot.ly153
6.11 小结155
第7章 信号处理与时间序列156
7.1 statsmodels子库157
7.2 移动平均值157
7.3 窗口函数159
7.4 协整的定义161
7.5 自相关164
7.6 自回归模型166
7.7 ARMA模型170
7.8 生成周期信号172
7.9 傅里叶分析174
7.10 谱分析177
7.11 滤波177
7.12 小结179
第8章 应用数据库180
8.1 基于sqlite3的轻量级访问181
8.2 通过pandas访问数据库183
8.3 SQLAlchemy185
8.3.1 SQLAlchemy的安装和配置186
8.3.2 通过SQLAlchemy填充数据库188
8.3.3 通过SQLAlchemy查询数据库189
8.4 Pony ORM191
8.5 Dataset:懒人数据库192
8.6 PyMongo与MongoDB195
8.7 利用Redis存储数据196
8.8 Apache Cassandra197
8.9 小结201
第9章 分析文本数据和社交媒体203
9.1 安装NLTK203
9.2 滤除停用字、姓名和数字206
9.3 词袋模型208
9.4 词频分析209
9.5 朴素贝叶斯分类211
9.6 情感分析214
9.7 创建词云217
9.8 社交网络分析222
9.9 小结224
第10章 预测性分析与机器学习225
10.1 scikit-learn概貌226
10.2 预处理228
10.3 基于逻辑回归的分类230
10.4 基于支持向量机的分类232
10.5 基于ElasticNetCV的回归分析235
10.6 支持向量回归237
10.7 基于相似性传播算法的聚类分析240
10.8 均值漂移算法242
10.9 遗传算法244
10.10 神经网络249
10.11 决策树251
10.12 小结253
第11章 Python生态系统的外部环境和云计算255
11.1 与MATLABOctave交换信息256
11.2 Installing rpy2安装rpy2257
11.3 连接R257
11.4 为Java传递NumPy数组260
11.5 集成SWIG和NumPy261
11.6 集成Boost和Python264
11.7 通过f2py使用Fortran代码266
11.8 配置谷歌应用引擎267
11.9 在PythonAnywhere上运行程序269
11.10 使用Wakari270
11.11 小结271
第12章 性能优化、性能分析与并发性272
12.1 代码的性能分析272
12.2 安装Cython277
12.3 调用C代码281
12.4 利用multiprocessing创建进程池283
12.5 通过Joblib提高for循环的并发性286
12.6 比较Bottleneck函数与NumPy函数287
12.7 通过Jug实现MapReduce289
12.8 安装MPI for Python292
12.9 IPython Parallel292
12.10 小结296
附录A 重要概念298
附录B 常用函数303
附录C 在线资源309