新書推薦:
《
强者破局:资治通鉴成事之道
》
售價:HK$
82.8
《
鸣沙丛书·鼎革:南北议和与清帝退位
》
售價:HK$
121.0
《
从康德到黑格尔的发展:兼论宗教哲学(英国观念论名著译丛)
》
售價:HK$
62.1
《
突破不可能:用特工思维提升领导力
》
售價:HK$
79.4
《
王阳明大传:知行合一的心学智慧(精装典藏版)
》
售價:HK$
227.7
《
失衡与重塑——百年变局下的中国与世界经济
》
售價:HK$
135.7
《
不被定义的年龄:积极年龄观让我们更快乐、健康、长寿
》
售價:HK$
79.4
《
南方谈话:邓小平在1992
》
售價:HK$
82.8
|
編輯推薦: |
作者荣获美国政府颁发的美国杰出人才称号。大润发中国区董事长、飞牛网首席执行董事黄明端先生与eBay全球零售科学高级总监逄伟先生作序力荐!
将技术与商业需求相结合,深入剖析大数据商业应用中的困惑与难题,帮助读者更好地掌握技术支撑业务高速发展的方案!
|
內容簡介: |
本书先介绍大数据商业架构需要的各种技术知识,然后通过介绍一个虚拟的互联网创业案例,逐步展开介绍各个阶段可能遇到的业务需求,以及相对应的技术方案,甚至是技术难度。为了达到深入浅出,通俗易懂的效果,实战章节一般是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对备选技术方案进行科普、概述和探讨,最后是技术方案确定和结论。
名人推荐:
作者在1.号.店的三年(2012—2014年),正是1.号.店系统快速发展的三年,即从大型电商系统转向巨型电商系统的阶段。而作者在此期间的贡献,对1号店搜索系统的变革起到了关键的作用,他和他的团队也藉此获得了“总裁特别奖”。通读全书,我发现该书不仅是大数据技术的探讨,也是技术和业务结合的心路历程。对大数据感兴趣的同行,定能从中获得全新的认识。
——韩军 原1号店CTO现欧电云科技董事长
我和作者曾经一起负责过eBay全球的数据挖掘项目,他的商业敏感度和创新精神让我记忆犹新。不过没有想到,对于写书,他也是个好手。此书既讲述大数据的理论知识,也介绍实际经验,适合不同层次的读者,并能帮助他们解决商业应用中的困惑与难题。
——Yongzheng Zhang LinkedIn(领英)商务分析经理
我曾经负责整个1号商城的运营,同作者有过不少项目上的对接。对于我们提出的运营相关问题,作者都能运用合适的技术方案,顺利地解决。当得知他要撰写一本与大数据技术相关的图书,我已经迫不及待地想一探究竟,感受业务和技术融合的神奇。希望广大读者在读完此书后也能收获颇丰。
——昊海泉 原1号店副总裁现美的集团电商总经理
作为互联网企业,通常面临的难题是大数据相关的产品设计门槛较高,缺乏专业的人才。当作者向我介绍这本书的时候,我没有想到他竟能将种种复杂的技术问题,说得如此生动、易懂、易学。相信这样的书籍,对数据产品经理的培养、大数据技术的产品化都有不小的促进作用。
——王欣磊 百度LBS新业务产品总监
|
關於作者: |
黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜
索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有
20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的美国杰出人才称号。
|
目錄:
|
推荐序一
推荐序二
前言
第1章抉择 1
第2章数据收集 4
2.1互联网数据收集 4
2.1.1网络爬虫 5
2.1.2Apache Nutch简介 11
2.1.3Heritrix简介 14
2.2内部数据收集 15
2.2.1Apache Flume简介 17
2.2.2Facebook Scribe和Logstash 21
2.3本章心得 21
2.4参考资料 22
第3章数据存储 23
3.1持久化存储 23
3.1.1Hadoop和HDFS 25
3.1.2HBase简介 28
3.1.3MongoDB 35
3.2非持久化存储 37
3.2.1缓存和散列 37
3.2.2Memcached和BerkeleyDB简介 41
3.2.3Redis简介 41
3.3本章心得 44
3.4参考资料 44
第4章数据处理 46
4.1离线批量处理 46
4.1.1Hadoop的MapReduce 47
4.1.2Spark简介 52
4.1.3Hive简介 53
4.1.4Pig、Impala和Spark SQL 56
4.2提升及时性:消息机制 58
4.2.1ActiveMQ简介 60
4.2.2Kafka简介 61
4.3在线实时处理 63
4.3.1Storm简介 63
4.3.2Spark Streaming简介 66
4.4本章心得 66
4.5参考资料 67
第5章信息检索 69
5.1基本理念 70
5.2相关性 70
5.2.1布尔模型 70
5.2.2基于排序的布尔模型 71
5.2.3向量空间模型 74
5.2.4语言模型 75
5.3及时性 77
5.4与数据库查询的对比 81
5.5搜索引擎 82
5.5.1Web搜索中的链接分析 83
5.5.2电子商务中的商品排序 86
5.5.3多因素和基于学习的排序 88
5.5.4系统框架 89
5.5.5Lucene简介 93
5.5.6Solr简介 98
5.5.7Elasticsearch简介 104
5.6推荐系统 108
5.6.1推荐的核心要素 109
5.6.2推荐系统的分类 110
5.6.3混合模型 115
5.6.4系统架构 116
5.6.5Mahout 116
5.7在线广告 119
5.7.1在线广告的类型 120
5.7.2广告投放机制 124
5.7.3广告的拍卖机制 125
5.7.4广告系统架构 126
5.8本章心得 127
5.9参考资料 128
第6章数据挖掘 130
6.1基本理念 131
6.2数据的表示和预处理 133
6.2.1数据的表示 133
6.2.2数据的预处理 135
6.3机器学习算法 136
6.3.1监督学习—分类 137
6.3.2监督学习—回归 152
6.3.3非监督学习—聚类 153
6.4挖掘工具 157
6.4.1Mahout简介 157
6.4.2R简介 159
6.5本章心得 165
6.6参考资料 165
第7章效能评估 167
7.1效果评估 168
7.1.1离线评估 169
7.1.2非离线的评估 183
7.2性能评估 190
7.2.1计算复杂度 191
7.2.2应用系统性能 193
7.2.3JMeter工具 197
7.3本章心得 202
7.4参考资料 202
第8章大数据技术全景 204
第9章商品太多啦!需要搜索引擎 207
9.1业务需求 207
9.2产品设计和技术选型 208
9.3实现方案 211
9.3.1数据定义和配置 211
9.3.2集群搭建 213
9.3.3DIH配置 216
第10章能否更主动?还需要推荐引擎 223
10.1业务需求 223
10.2产品设计和技术选型 225
10.3实现方案 230
10.3.1基于内容特征的衡量 230
10.3.2基于行为特征的衡量 233
10.3.3提供在线服务 236
第11章这样做的效果如何 241
11.1业务需求 241
11.2产品设计和技术选型 242
11.3实现方案 243
11.3.1行为数据的定义和记录 243
11.3.2Flume和HDFS的集成 246
11.3.3通过Hive进行分析 252
11.3.4Kafka和Storm的集成 254
第12章这个搜索有点逊 258
12.1业务需求:还要搜得更多 258
12.2“还要搜得更多”:产品设计和技术选型 259
12.3“还要搜得更多”的方案实现 261
12.3.1HBase的部署 261
12.3.2HBase和Solr的集成 264
12.4业务需求:还要搜得更准 265
12.5“还要搜得更准”:产品设计和技术选型 266
12.5.1提升搜索排序的相关性 266
12.5.2提升搜索排序的整体效果 268
12.6“还要搜得更准”的方案实现 271
12.7业务需求:还要更快 273
12.8还要“变”得更快:产品设计和技术选型 274
12.9还要“搜”得更快:产品设计和技术选型 275
12.10业务需求:给点提示吧 280
12.11给点提示吧:产品设计和技术选型 282
第13章支持更高效的运营 287
13.1业务需求:互联网时代的CRM 287
13.2互联网时代的CRM:产品设计和技术选型 288
13.3业务需求:抓住捣蛋鬼 291
13.4抓住捣蛋鬼:产品设计和技术选型 292
13.4.1识别分类错放 292
13.4.2识别SEO作弊 294
13.5业务需求:销售之战 295
13.6销售之战:产品设计和技术选型 296
13.6.1设置合理的价格 296
13.6.2识别黄牛 298
后记 299
|
內容試閱:
|
序言
Foreword 推荐序一大润发是1998年成立的,到了2008年已是中国最具规模的大卖场,那时候电子商务刚在萌芽阶段,而实体店也还在快速发展,加上2010年公司忙于筹备上市,准备于2011年在香港挂牌,所以我们并没有花太多时间研究电子商务,而且在那个时间段大部分电子商务公司都处于亏损状态。
后来我们惊觉电子商务已快速发展,办公室很多同事都开始在网上购物了,加上“双11”的天量交易额,逼得我们不得不认真地研究电子商务的发展趋势。到2012年,我们发现电子商务越做越好,尤其进入移动互联网时代后,想要满足顾客随时随地的购物需求,电商发展必然是未来消费的新渠道与趋势。所以我们在2013年决定进军电子商务并成立飞牛网(Feiniu.com)。
经过两年多的实践,我认为实体零售跟电子商务还是存在很大差异,其中最主要的差异有两点。
顾客忠诚度差异:对于线下卖场而言,选址是关键。地点位置正确,就会有稳定的客流,也容易培养顾客忠诚度。然而,对于线上而言,它不受地域的限制,顾客切换不同的网站是一件十分轻松的事情,因此忠诚度普遍不高。
顾客行为数据的获取成本差异:线下卖场很难跟踪顾客的行为,如果要安装各种复杂的信息采集设备,运营成本就会很昂贵。而到了线上,顾客浏览网站时“凡走过必留下痕迹”,电商要收集顾客的行为只需要读取站点的访问日志,可以说相对容易。
正是因为顾客忠诚度不高,对于忠诚顾客的培养成为电商的必争之地。我相信,要实现这个目标,基于顾客行为的大数据和精准化营销就显得更为重要。我们需要充分利用数据挖掘,并快速反馈到整个电商系统。
至于如何做到个性化的搜索和推荐,如何做好客户关系管理(CRM),以及如何做到精准的推送和营销,一直是我们探索的内容。飞牛网从成立之初到现在,碰到了很多与搜索和大数据相关的问题和困难,一年半以前,黄申博士加入了飞牛网的技术团队,他的技术和经验对于我们的帮助很大,在他的指导下我们快速建立了专业的搜索、推荐及用户画像系统。这些都是我们分析顾客、理解顾客、提升顾客在线体验的核心,使得飞牛网和行业先锋之间的距离在短时间内大幅缩小。关注飞牛的读者,你们可以到飞牛网体验一下个人喜欢的商品,然后你就能细细品味到我们搜索、推荐等大数据相关的功能给你带来的便捷和惊喜。
当然,这些成绩和黄申博士丰富的业界经验分不开。在日常的工作中,他总是有独到的见解。如果你有幸阅读本书,一定能从他的分享中了解大数据是如何运作的,了解大数据是如何支持业务的,以及了解技术是如何满足业务需求的。对于还处在大数据摸索中的人而言,他的思路和探讨非常宝贵,这是一本讲述搜索和大数据领域实践经验的好书,值得推荐。
飞牛网CEO黄明端2016年3月Foreword 推荐序二最近的十年中,我一直在eBay从事数据相关的项目,领导了包括零售科学和搜索科学在内的研发团队。如今eBay在全球已有1亿多注册用户,每天都有数以百万的家具、收藏品、电脑、车辆在eBay上被刊登、贩售、卖出,每年的营业额高达数千亿美元。
但是我们非常清楚,对于eBay而言,更为珍贵的财富是网站上每时每刻都会产生的海量数据。通过对这些数据的分析,我们可以指导卖家进行更好的搜索引擎优化、制定更好的价格、控制合理的库存;还可以帮助买家找到更合适自己的商品和更优质的服务。当然,大数据的分析还能帮助eBay有效地防范作弊和欺诈,保证整个平台和渠道的健康发展。
正是意识到数据的关键性,eBay非常重视挖掘和利用它们的潜在价值。本书作者曾经在eBay的研究院和搜索科学部门工作,专门从事机器学习的研究和应用。他协助eBay构建了数项核心算法及其相关产品,包括基于机器学习的搜索排序、高质量用户评价的发现和摘要、相似和相关商品推荐栏位等。在此过程中,他和各个技术同仁、产品经理、业务部门紧密合作,而这本著作就融入了作者在这些实战项目中所积累的丰富经验。所以,本书最大的闪光点在于,它的内容不仅仅局限于技术本身,而是考虑到了在不同的应用场景下,这些技术应该怎样合理运用。例如,对于基于学习的搜索排序,通常要考虑哪些因素以及怎样的学习模型?对于智能推荐的栏位而言,相似和相关商品又有怎样的区别?分别都应该使用怎样的推荐模型?除了与业务应用紧密结合,此书还具有覆盖面广和通俗易懂的特点。全书涉及的主题包括大数据的获取、存取、处理、检索、挖掘和评估中的多数主流技术。同时,作者从自己独特的视角出发,对深奥的技术进行了深入浅出的阐述,大幅降低了大数据知识理解的难度。因此,本书也非常适合大数据产品设计者、产品经理或者架构师进行阅读。我相信,对于希望利用大数据解决业务痛点的读者而言,此书是不可或缺的良师益友。
eBay全球高级总监 逄伟2016年3月
|
|