新書推薦:
《
十一年夏至
》
售價:HK$
78.2
《
如何打造成功的商业赛事
》
售價:HK$
91.9
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:HK$
59.8
《
慈悲与玫瑰
》
售價:HK$
89.7
《
启蒙的辩证:哲学的片简(法兰克福学派哲学经典,批判理论重要文本)
》
售價:HK$
78.2
《
心跳重置
》
售價:HK$
60.7
《
云中记
》
售價:HK$
78.2
《
中国古代妇女生活(中国古代生活丛书)
》
售價:HK$
48.3
編輯推薦:
史蒂芬·平克*为推崇的人类趋势新作。
世界顶尖数字人文学家、“谷歌图书”项目首席专家埃雷兹·艾登与让-巴蒂斯特·米歇尔重磅力作。
超级畅销书《链接》译者、中科院计算所副研究员沈华伟,中科院计算所所长助理、中国科学院网络数据科学与技术重点实验室主任程学旗诚意之作。
500多万本电子书、82幅图表、6大热点主题,完美洞悉人文历史与未来。
中国工程院院士、中国科学院大学计算机与控制学院院长李国杰,清华大学心理学系主任、加州大学伯克利分校心理学系终身教授,当代*伟大思想家、世界顶尖语言学家和认知心理学家、经典畅销书《语言本能》作者史蒂芬·平克,数据趋势先驱,著名畅销书《大数据时代》合著者肯尼思·库克耶联袂重磅推荐。
湛庐文化出品。
內容簡介:
科学的传播速度有多快?今时今日我们很少谈论上帝了吗?人们什么时候开始用“having sex”而不用“making love”?史上的人是在哪岁成名的?语法的变化速度到底有多快?哪些作家被纳粹审查得最彻底?“donut”什么时候开始取代“doughnut”?我们能否预测人类未来?比尔·克林顿和花椰菜哪个更出名?不规则动词是如何逐渐消失的?数据和上帝,人们更相信哪一个?名人们更多的是少年成名,还是大器晚成?如何进行合适的职业选择?
《可视化未来》一书的一大特色是用图表说话。书中数百幅图表,以最直观的方式回答了这些看似毫无头绪的复杂问题。回答这些问题的图表,可以说是人类文化的一部连环画。它们简单易懂,而我们还可以通过在线的n元词组词频查看器方便地生成很多类似的图表,来满足我们对人类文化各个方面的好奇心。
该书是史蒂芬·平克最为推崇的人文趋势新作,500多万本电子书、82幅图表、6大热点主题,完美洞悉人文历史与未来。
關於作者:
(美)埃雷兹·艾登
1980年,埃雷兹·艾登出生于美国布鲁克林,精通希伯来语和匈牙利语。本科就读于普林斯顿大学,主修数学、物理学和哲学专业,毕业后考入叶史瓦大学历史学专业,攻读硕士学位。
2009年,在哈佛-麻省理工博德研究所攻读博士学位的艾登被《麻省理工科技评论》提名为世界上前35位年龄小于35岁的创新者。
博士毕业后,艾登先是任职于哈佛大学科研学会,后任谷歌客座教授,随后成为贝勒医学院和莱斯大学的助理教授,领导基因组架构研究中心。2012年,他因和同事一起发明了探测基因3D折叠方式的技术,获得美国总统青年科技奖(PECASE),这是美国政府颁给青年科学家的最高荣誉。
(法)让-巴蒂斯特·米歇尔
数据科学公司量化实验室(Quantified Labs)创始人,哈佛大学副研究员,曾任谷歌客座教授。2010年在哈佛获得博士学位。2012年入选TED Fellow,最近被《福布斯》提名为“30岁以下30位创新者”之一。
目錄 :
推荐序 数据透镜,洞穿科学与人文之美
李国杰
中国工程院院士,中国科学院大学计算机与控制学院院长
译者序 在大数据的指引下开启未知之旅
引言
数字眼,透视历史与未来
第1章
乔治·金斯利·齐夫与化石猎手
英语演进的全景式图谱
源起孩童式问题
1937,数据史诗
幂率,引爆词汇世界新正态
过于齐夫与否
2005,另一个数据史诗
时间旅行者的窘境
词典与索引
数一数玫瑰的花瓣
【量化人文】是burnt,还是burned?
第2章
四个生日和一个葬礼
语言本质的新视域
谷歌数字图书馆之梦
3000万本!“谷歌图书”的9年成果
《财富》500强法务部门的心理
大投影,应对隐私泄漏之殇的密钥
在“谷歌图书”的投影中
自己动手编词典
词汇暗物质
【量化人文】 老爸,保姆来自哪里?
第4章
未来,每个人都将在7.5分钟内成名
从崭露头角到名望顶峰的路线图
名望的万有引力
测量名望,你需要一个“风洞”
临摹名望,只是接近成名
断代分析,将名望视作疾病来研究
人类名望的风云变化:从75岁到41岁
如何获得名望:职业选择指南
恶名,最极端的成名方式
【量化文化】 一步之遥,名望天地间
第5章
文明割裂与寂静之声
如何透视文化审查的藏身之处
“堕落的艺术”
史上最火爆的艺术展
焚书
环球巡回,他们不希望你看到什么
思想有数百万个出口
【量化人文】 两个权利催生一个新权利
第5章
为什么越是痛苦的记忆,越容易被忘怀
集体意识的铭记与遗忘曲线
记忆测试
记忆关联效应:其他东西的记忆
集体记忆的遗忘曲线
新信息如何进入社会
新技术如何进入社会
147个重要日期
奇点,还是破灭?
量化民族精神
让世界一起上瘾
【量化人文】 妈妈,火星人来自哪里?
第 6 章 乌托邦、反乌托邦与数托邦
让预测人类未来成为现实
数字化的过去:书籍、报纸等的数字化
数字化的现在:数字通信与社交媒体让人类更亲密
数字化的未来:“数字化来世”将触手可及
真相与后果
志趣相投:科学与人文已经走向融合
心理史学
【量化人文】
由n元词组词频统计器绘制的人类大未来
附录 n元词组历史大会战
內容試閱 :
|第3章|
未来,每个人都将在 7.5 分钟内成名
从崭露头角到名望顶峰的路线图
打扫垃圾这个工作不怎么迷人,却可以成就英雄。
不信的话,你可以问一下希腊神话中的英雄——大力神赫拉克勒斯。在赫拉克勒斯的 12 次劳作中,第 5 次的任务就是打扫奥革阿斯国王 Augeas的牛棚,那里面住着数千头长生不老的母牛。由于牛棚已经 30 年
没有打扫了,粪秽堆积如山。因此,赫拉克勒斯将两条湍急的河流引来,一
天之内就将牛棚冲洗得干干净净。他的英雄事迹至今仍是世界排污工程史上最伟大的成就之一。
几千年后,类似的传奇故事仍然不绝于耳。这个故事是关于我们的“计 算大力神”沈渊的。谷歌花费了5 年时间,尽情地汇聚知识的力量,快速地
数字化数以百万计的图书。然而,在创造了世界上最大的数字图书“牛棚”
的同时,也不可避免地衍生出了一个副产品——谷歌积累了数量庞大的低质
量数据。有些大数据是脏的。所以,我们是时候该清理“牛棚”了。
阻碍:错漏百出的图书馆卡片目录
最近,你将多少黄金时间耗费在了图书馆的卡片目录上?
卡片目录曾经是图书馆里图书流通的核心。图书馆里的每本书都对应着
一张卡片,上面记录着该书的关键信息,包括书名、作者、主题、出版年份
和用于标识图书位置的编码。每天,来访者源源不断,他们会走向卡片目录
存放柜,然后再根据目录里的信息走向遥远角落里的一排排书架。
如果没有卡片目录,图书馆将杂乱无章,人们也就无法从中获取任何信 息。很多个世纪以来,最重要的图书馆之一 ——梵蒂冈秘密档案馆Vatican
Secret Archive就处于这种状态。这家档案馆的书架有 83.7 公里长,却缺少一个囊括所有馆藏图书信息的卡片目录。档案馆里面有什么?即使是有权自由访问该档案馆的人,恐怕也说不清楚。如果需要从中找一本书,你就需要了解:谁可能知道书的位置。档案馆里陈列着很多珍贵的手稿,这些手稿可以追溯到 8 世纪,譬如,关于对伽利略进行异端审判的记录。然而,要想从中找出这些珍宝,却无异于是一场探险,或许《夺宝奇兵》中的印第安纳
· 琼斯Indiana
Jones会想要去进行这样的探险。对于这家档案馆来说,没有卡片目录无疑是一种绝佳的信息保护方式。
对我们而言,和任何其他图书馆用户一样,仅仅拥有查找馆藏图书的权利还远远不够。如果我们想对比一下不同时代和地方的书,还需要准确地找出记录着书的元信息的卡片目录,以便我们了解哪本书是关于什么的,从而在进行自动分析时知道该如何对其进行分类。
起初,我们并没有觉得这是一个大问题。谷歌在收集 1.3 亿本书时,使用的就是来自数百个源头的目录信息。这些年来,各大图书馆的卡片目录都完成了数字化,这是最早受益于数字化的事物之一,原来那些实体卡片通常都被“冷落”了。然而,事实证明,哪怕是最好的卡片目录也会出错。
错误一旦酿成,一般不会很快得到纠正。卡片目录如此之多,即便是最忠实的图书馆用户也不能总是注意到这些错误。有时候,用户也会因此找不到书。在这种情况下,“非礼勿视,非礼勿听,非礼勿言”。有时候,错误出现在诸如图书出版地区之类的地方,但只要编码正确,用户们还是能找到相应的书。在这种情况下,卡片上错误的元信息对于读者而言影响不大,因为关键信息是正确的。
随着时间的推移,众多没有得到纠正的错误从实体卡片目录上迁移到了数字卡片目录上,然后又迁移到了谷歌采集图书时使用的“母目录”上,最后来到了我们这里。和只对某本书感兴趣的人不同,错误对我们影响很大: 我们无法手工检查数百万本书。然而,这些卡片中有相当大一部分含有错误。如果我们使用这个目录元数据来产生 n 元词组表格,最终的结果就会非常糟糕且无法使用。而当我们使用含有错误的目录信息进行计算时,我们发现,隔壁办公室的朋友 16 世纪时就已经很出名了。当我们告诉她这个消息时, 她否定了自己有那么老。要么是她对我们撒了谎,要么是我们的计算出了问题。我们该怎么办?
由于不能手工检查这些书,所以我们决定编写计算机算法以找出可疑的卡片——因某种原因包含了错误信息的卡片。以杂志为例,对于系列出版物
如报纸、学术期刊以及其他期刊,图书馆会将创刊日期放在每一期上。这就
意味着,按照我们的卡片目录检索,每一期的《时代周刊》都出版于 1923 年。
对于我们的研究目的而言,这是一个大问题。
为了解决这些问题,我们编写了一个叫作“系列出版物杀手”Serial 83 Killer的算法,它可以找出任何可疑的系列出版物。我们还编写了一个叫作“快速确定日期”Speed Dater的算法,查看图书的正文,根据正文推测图书的出版日期。我们将两个算法相结合就可以识别出可疑的卡片以及对应的图书。然后,我们再将这些书从我们的分析中剔除出去。
解决:“清洗”脏数据
最终,2009 年夏天,沈渊将两个算法和他的软件工程经验相结合,将那些愚弄我们的脏数据冲走了。数百万的书被冲到了计算的河流中,数量之
大以至于触发了谷歌的内部报警系统。经过这次传奇般的清洗之后,剩下的
图书只有最初的一小部分了。不过,剩下的数据集在规模和历史跨度上仍然是史无前例的:5 000 亿个词,前后贯穿 5 个世纪,涉及 7 种语言。该数据集中包含的书的数目超过了人类曾经出版过的所有书的 4%。
与清理前的数据集相比,这个大数据集同等重要。它的文本总长度是人类基因组总长度的 1 000 倍,其准确性是人类基因组计划Human Genome Project报告的基因序列准确性的 10 倍。
现在,我们输入的文本和卡片目录的元数据都是“干净”的了,它们生成的 n 元词组非常好。我们能够从中清晰地辨识出语言和文化的很多演变规律,例如,从 throve 到 thrived 的变迁,从 telegraph 到 telephone 的进步。从科学层面上讲,只要看一眼 n 元词组数据,你就会对它一见钟情。
告别:互联网巨头的担心
但是,和很多夏日恋情一样,伴随秋日的到来,我们对 n 元词组的爱很 快就面临了秋季障碍。随着沈渊结束了在谷歌的实习,我们在不久之后也从谷歌离开,把数据留在了谷歌的防火墙之内。
我们希望谷歌能将这些数据发给我们。但是,这个互联网巨头并不想这么做。在谷歌看来,n 元词组数据很敏感。律师给出的理由很简单:这个 n 元词组数据集是从 500 万本书的正文中计算出来的。500万本书对应着将近500万个作者。如果数据泄露招致了法律诉讼的话,也就对应着500万个原告。我们在具体设计n元词组的数据投影时,就考虑过这个问题。因此,我们当时选择了统计词的出现频次,而不是记录大段的文字。但是,我们的投影方式没有在法庭上进行过测试。因此,谷歌的担心也不无道理。
面对世界上最大公司之一的法律部门,我们能打的牌不多。但是,我们握有20亿个n元词组,所以不打算就此退却。
契机:史蒂芬
· 平克的名望
我们几乎用光了手中所有的牌。第一张牌是机会,获奖的阿维娃·艾登为我们打开了通往谷歌总部的大门。第二张牌是陌生人的友善,彼得·诺维格为我们开了绿灯,并愿意和我们合作。我们甚至还电话求助过一个朋友, 他是我们很久没有联系的一位邻居,叫本·拜尔Ben Bayer,曾经是谷歌研究院 Google Research 的“时空主管”Master of Space and Time——这可能是企业历史上最伟大的职务了。但是,我们还有一张王牌没有用过。
我们关于量化历史趋势的每份报告都受到了史蒂芬·平克Steven Pinker的关注,他是目前还在世的最杰出的科学家之一,也是我们一直敬佩的人。
平克是一位心理学家、语言学家、认知科学家,其研究具有超凡的广度和深度。作为畅销书作者,他具有一种非同寻常的能力,能够从最复杂的问题中清晰地提炼出其本质。例如,有一次,平克参加了一个叫作《科尔伯特
报告》The Colbert Report的讽刺类新闻节目。斯蒂芬·科尔伯特Stephen Colbert问他大脑是如何工作的,并要求其用不超过 5 个词进行回答。平克
想了几秒钟后说:“脑细胞有规律地燃烧。”
让人感到幸运的是,平克的一位拥护者丹·克兰西在 2009 年夏天时正好担任整个谷歌图书项目的运营负责人。克兰西的级别很高,他一发话就能让我们从谷歌公司外部访问 n 元词组数据。但是,他非常忙,没有时间顾及我们和我们的小项目。在那个夏天即将结束时,形势变得清晰起来,如果平克愿意出席一个讨论 n 元词组的会议,那么常常神龙见首不见尾的丹·克兰西也会抽出时间参加。
于是,我们去找平克。看一看吧,我们已经生成了20亿个n元词组, 你能帮助我们自由地使用它们吗?平克认为,我们的工作有潜在的应用价值, 所以他答应会出席会议。而克兰西也同意来参加会议。因此我们就有了30分钟的时间来说明情况。几年前,平克被《时代周刊》提名为“全世界100位最有影响力”的人物之一。随着会议的进行,一切都变好了。对于平克而言, 30 分钟足够他施展魔力了。很快,n元词组就被派上了用场。那么,名望能带给你什么?平克的声望带给我们克兰西30分钟的时间。虽然不多,但足够了。
名望的万有引力
名望是蜜蜂,
它会唱歌,
它会叮人,
啊,它还有翅膀。
美国传奇诗人艾米莉 · 狄金森Emily Dickinson的这首诗抓住了名望的本质:富于诱惑、充满危险、能给人以提升的空间却又使人难以把握,