'辛顿的冬与春'
零、负十字架的人
1947 年,在原子弹的余震中,新世界如大雪初霁,茫然而沉静。
那一年,《新闻周刊》发表了文章:《爱因斯坦,那个开启一切的人》。
那一年,爱因斯坦懊悔地说:“如果早知道德国人研发不出原子弹,我就不会为原子弹做任何事情!”
那一年,68 岁的爱因斯坦决定奔走全世界,讲述核战的末世图景,余生致力于推动核裁军。
那一年,世界没有为爱因斯坦停留半步,战略核威慑的骨相从虚空中浮现。
而后一个世纪,我们对社会最大胆的构想,对敌我最深刻的分别,一切光荣与梦想的枝蔓,都必须攀附于核威慑的穹窿之下。
一个试图破解万物奥秘的人,却因自己的求索背负了沉重的十字架,直到坟墓中也没卸下。
这是宇宙残酷的小玩笑。
正是在 1947 年的冬季,伦敦西南的温布尔顿,一个叫做杰弗里·辛顿的小男孩呱呱坠地。
站在辛顿和爱因斯坦的切近,你找不到他们的任何共同点,除了两人都获得了诺贝尔物理学奖。
相隔 102 年。
但如果退到崖边远眺,你也许会惊奇地目睹:历史的齿轮旋过几代人头顶,经过 102 年的漫长行进,正再次严丝合缝地啮合在一起。就在那齿轮弹撞的一瞬间,两人靠得很近。
历史的交接,沉默的巨响。
人们抬起头,一切如常。
一、生命与机器
我们是机器,只是以生物的方式被制造出来。
辛顿说。
普通人其实并不在乎自己是什么,他们只在乎自己是否高贵。
机器并不高贵。
哥白尼把我们驱抛出了宇宙中心,达尔文把我们赶进动物平原,尼采宣布没有一个上帝曾许诺我们牧羊,加缪说一个人所能过的最强悍的一生不过如西西弗斯。
辛顿只是用锋利的“真相”在人类本已血肉模糊的自尊上又补了一刀,而已。
最近十年,不是特别冷的日子,辛顿都会住在自己的岛上。
没错,是他的岛,一个点缀在加拿大休伦湖畔,完美符合人们对“人工智能教父”名头浪漫想象的岛屿。
他在 65 岁时买下这座岛。而在 65 岁以前的任何一天,他恐怕都无法幻想自己能这么奢侈地“消费”。
在那之前的 30 年,辛顿只有一个身份:计算机科学教授。
现在,人们很自然地把他做的事称为“人工智能”。但如果把时钟拨回上世纪 70 年代,这不过是一个只有幻想家和疯子才愿意投身其中的冷门学科。
甚至研究者本人都觉得“人工智能”这样的词太过艳俗,难以说出口,一般称自己搞的是“机器学习”。
而辛顿所投身的又是机器学习里冷门的一派:神经网络。
简单来说,就是用计算机模拟人类大脑的亿万神经元连接,从而涌现出“智能”。
可具体怎么“涌”?真是鬼知道。
在打长途电话还要人工接线,电脑刚刚开始小型化,出门只能靠纸质地图的 Lo-Fi 年代,人造神经元之类的话听上去就像梦呓。
1970 年的纽约。
1970 年生产的 IBM System 3 电脑。
1971 年,人类第一颗大规模集成电路处理器 intel 4004 刚刚诞生。
1972 年,辛顿在爱丁堡大学攻读“神经网络”博士时,导师每周都亲口提醒他:“你在浪费时间”。
以至于旁观者都好奇,一个人要靠什么力量才能把自己生命里最好的一万个日夜消磨在这种天方夜谭之上?
那种力量也许来自一棵“树”。他的家族树。
辛顿的外曾曾祖父是乔治·布尔,他发明了布尔代数,奠定了计算机的数学基础;
George Boole,1815~1864
布尔妻子的叔叔是地理学家,他的姓氏 Everest 被用于命名了珠峰;
George Everest,1790~1866
布尔的一位女儿,也就是辛顿的外曾姑奶奶是《牛虻》的作者艾捷尔・丽莲・伏尼契;(伏尼契是她在结婚之后改姓的夫姓)
Ethel Lilian Voynich,1864~1960
辛顿的曾祖父查尔斯·霍华德·辛顿是数学家兼奇幻作家,发明了“四维立方体”,就是你在《星际穿越》里看到的四维空间;
Charles Howard Hinton,1853~1907
辛顿的表哥发明了便携 X 光机,辛顿的表姐参加了研发原子弹的曼哈顿计划;辛顿的爸爸霍华德·辛顿是昆虫学家,英国皇家学会会员。
就连杰弗里·辛顿的中间名,都是代表珠峰的 Everest,为了纪念家族的荣光。
生活在这样硕果累累家族树的阴影下,一个孩子只会感到恐惧——即便将来自己出人头地,甚至拿到了诺贝尔奖,旁人也会撇撇嘴,这家伙“本该如此”吧?
孩提时代,压抑已经如影随形。
他爸爸用那只能单手做引体向上的手指着瘦弱的他:“如果你付出两倍于我的努力,岁数是我两倍的时候,也许能有我一半优秀。”
他妈妈就和善多了,说:“你面前有两条路,要么当一个教授,要么当一个失败者。”
他逃离现实的方法是:暗中观察这个世界。
4 岁时,辛顿和他妈妈坐公交车。他拿出一便士硬币放在天鹅绒座套上,奇怪的现象出现了:
硬币没有往下滑,而是逆着重力往高处移动。
这件事情在他脑海里驻留了 10 年,直到十几岁的时候,他才恍然大悟:公交车的震动模式给了硬币向上的推力,而天鹅绒座套的纤维恰好能阻止硬币向下滑动。
有人看到他不理解的东西也坦然以待。但我不能接受有什么违背了我对世界的认知模型,我真的接受不了。
辛顿后来回忆道。
作为生物学家,辛顿的爸爸在家里搞了一个“动物园”。房间里养着猫鼬,车库的坑里养着毒蛇、青蛙、蜥蜴,水里还泡着他从中国带回去的乌龟。
小辛顿有大量的时间观察一个生命如何与环境互动。
8 岁的辛顿在动物园里和蟒蛇合影。
他懵懂地意识到:生命对环境的反应模式并非完全随机,而是遵循某种“直觉”。
这种直觉既不像数学公式那样简单输出,也不像宗教宣扬的“灵魂”那样不可琢磨。
它有迹可循。
就在小辛顿蹲在爬满冷血动物的大坑旁边的上世纪 50 年代,大洋彼岸的美国心理学家弗兰克·罗森布拉特行动了。
他改造了一台硕大的 IBM 计算机,模拟出几百个神经元,想让它从识别字母和形状开始,最终成为一个生命。
这就是后来一切“神经网络”的母机——感知机。
Frank Rosenblatt
1958 年,《纽约时报》采访了感知机团队后大受震撼,写下了热情洋溢的乐观预测:
要不了几年,计算机就能走路、说话,拥有自我意识!
随后的事实证明,“感知机”是个笑话。它不会说话也不会走路,连分清左右都困难。
当时,人工智能界的同僚对罗森布拉特充满同情的目光:做得不错,下次可别做了!
很多学者并不怀疑生命“可以是”机器,但他们普遍相信,要造出人工生命,得靠“编程”:
既然我们人类已经懂了这么多道理,把道理编成“概念和规则”,一条条清晰地罗列给计算机,它不就直接智能了吗? 你们非要模拟神经元,让计算机自己从头构建对世界的理解,这路绕到姥姥家了!
那辛顿怎么说?
不好意思,那时候辛顿并没有资格参与这场“真理”的讨论。
他正在汹涌的命运之海里大口呛水。
二、渴望而不得
如果有什么词汇能概括辛顿的整个青年时代,那就是“渴望而不得”。
辛顿动手能力很强,从小喜欢做木工活。可是闪耀的家族树上没有地方可以挂个木匠。
他必须硬着头皮走学术道路。
虽然考上了剑桥,可是这里人才济济,辛顿接连换了好几个专业,学物理,数学底子不够扎实;学哲学,又难以深入形而上的空想。总之,和同学们一比他都不算开窍。
当尊重不被提供,必须有勇气离开牌桌。中途他一度放弃,去伦敦打零工。
辛顿眼中,涌动着一种深刻的自我否定。那恐怕是所有少年都曾经历的渴望而不得的切肤痛苦。
荒谬的是:一台电脑可从来不会因为自己算出的结果与别人不同而痛苦,只有拥有“自我”的高级生命才能体会到这种痛苦——痛苦竟然是智能的副产品。
辛顿决定最后再试一个专业——心理学。由此,他遇到了伯纳德·威廉姆斯教授。
Bernard Williams
威廉姆斯是一位道德哲学家,他一生都在跟一个敌人战斗,那就是——还原论。
“还原论”,其实是当时主流科学的一个假设推论:
万事万物,无论多复杂,都可以拆解成一个个边界分明的、有特定功能的“零件”。
这意味着,想要复刻某个系统——包括人和动物——只需找齐所有的零件!
民国时基于还原论思想的人体科普挂图:人体好像工厂。
可在威廉姆斯眼中,还原论是狂妄的自负,只会导致固步自封。
他的观点是:复杂到一定程度的系统,尤其是“人的道德”,根本不能还原成一条条清晰的规则。
我们不同的思想一定反映了我们大脑内部不同的物理排列,但这与计算机内部的情况完全不同。
威廉姆斯对辛顿说。
听到这一句,辛顿脑中像有原子弹爆炸。
既然不能用拆成简单零件的方法来复刻一个系统,那还可以怎么办呢?
没错,用一个复杂系统“从整体上”模拟另一个复杂系统。
Blade Runner(1982)
给机器强行输入概念和规则,被归为人工智能的“符号主义”流派,它扎根于“还原论”; 而用人造神经系统整体模仿人的学习过程,就归为“神经网络”流派,它源自“系统论”。
而后几十年,两派势同水火,各不相让,表面上是技术路线之争,实际上却是对世界本质的“押注”。
赌的就是:这个世界究竟是一堆利落的“零件”,还是一坨牵一发而动全身的“浓汤”?
这里,我们不妨明晰一下“符号主义”和“神经网络”在方法论上的根本区别:
在“符号主义”的方案里,最小的零件就是“概念”。
例如:食物、酱汁、调味品、甜、味道、红色、番茄、美国、炸薯条、蛋黄酱、芥末,这些都是概念。
所有概念用规则相连,则会组成一个巨大的渔网。
而新概念,例如“番茄酱”,则可以挂在刚才这些旧概念网眼中的适当位置,成为新的绳结。
新概念无穷无尽,渔网上的网眼也无穷无尽; 旧规则不够精准,也需要用无穷无尽的新规则来完善。
例如:鸟会飞,企鹅是鸟,但企鹅是不会飞的鸟。
在“神经网络”的方案里,神经元所维持的基本元素可以称为“亚概念”:一个概念可以从很多亚概念中涌现出来。
这意味着,如果一个亚概念发生了变化,这将会潜移默化地影响很多个概念。
比如:我告诉你猩猩喜欢洋葱,那么你一定会猜,猴子是不是也喜欢洋葱?
因为在你的脑中,猩猩和猴子虽然是两个概念,但是他们共用了某些“亚概念”,例如多毛、动物、智力、灵长类、野性等等。
这里的关键是:很多深层的亚概念是无法用语言形容的,它在本质上只是某种神经元的“组合方式”。
但凡对自己的思维过程有过深刻反思的人,都会同意“神经网络”比“符号主义”更接近我们大脑的工作方式。
不过,没人规定智能必须以类脑的方式实现,你完全可以“抄近路”。
而且造物主绝对是个“反鸡汤者”,因为在很多情况下抄近路就是有效的。
1970 年代,“符号主义”已经突飞猛进,能做出一些像模像样的推理,可是“神经网络”还停留在智障阶段。
这是一种极强的反馈。很多神经网络学者含恨倒戈,加入了“还原论”的阵营。
但辛顿无法说服自己。和小时候一样,他不能接受有什么东西违背了自己对世界构建的认知模型。
1972 年,他进入爱丁堡大学攻读博士,方向就是“神经网络”。
如果别人无法找出原因,他就得自己找出原因。
如无意外,这次找到答案的过程,会比搞懂公交车上硬币爬坡要花费更长的时间。
就在博士第一年,辛顿看到了一个其他人工智能小组做的实验:
一台计算机,连着两个摄像头,系统要自主控制机械臂把积木搭成汽车的形状。
这对于当时的技术来说是地狱难度。因为系统视觉只能靠轮廓识别散落的积木块,一旦堆在一起,它就不认识了。
让辛顿难忘的瞬间出现了:机械臂退后了一点,然后“砰”地一拳把积木堆打散。
如果有人这么干,你会觉得他是因为“做不到”而沮丧。在机器人挥拳猛击积木时,我感到了它有同样的情绪。
辛顿说。
拥有感觉,就是你开始渴望得不到的东西。
Blade Runner(1982)
三、桥
正如威廉姆斯所说:不同的思想一定反映了我们大脑内部不同的物理排列。
可摆在辛顿面前的问题是: “宏观层面的思想”和“微观层面的神经排列”像是两座孤岛,中间隔着汹涌莫测的深海,需要一座“桥”把他们联系起来。
这座桥是什么?
在这一点上,辛顿是极其幸运的:无数巨人的肩膀正在前方,等待他拾级而上。
半个多世纪前,也就是爱因斯坦那一代科学家所掀起的物理学浪潮中,“最硬的脑壳们”向各个方向都撞出了一些空间。
在阐述“微观和宏观的关系”方面,最伟大的奠基者首推路德维希·玻尔兹曼。
玻尔兹曼发明了一套极其简洁的“统计+概率计算”的方法:
只要知道原子的原子量、电荷、结构等等微观特性,就能算出亿万原子在一起组成的宏观物体的物理性质,例如粘性、热量、扩散性。
也正是用同一套理论框架,玻尔兹曼解释了“熵”这个宇宙底层概念。
这就是统计力学。
Ludwig Eduard Boltzmann
然而,玻尔兹曼当时遭到了一众科学家的激烈反对,甚至对他发动了类似异教徒受到的攻击。
一个重要的理由是:你竟然用“统计数字”“计算概率”的模糊方法来解释具有确定性的物理世界,这算什么科学?
反对派科学家的愤怒,本质上只有三个字:不承认。
不承认这个宇宙的复杂性超越人类的计算能力;不承认人类拼尽全力也只能以模糊的方式把握这个世界。
但宇宙不会因渺小人类的愤怒而改换它的基本结构。
放弃对“精确”的执念,正是撕开迷雾,找到那座连接“宏观”和“微观”之桥的重要前提。
但这里存在一个问题。
假如你把各种颜色的墨水混在一起。它们肯定会经历一个混合的动态过程,最终会完全均匀。(此时每个分子在各种可能状态上的概率是相同的。)
玻尔兹曼的理论只能计算摇匀达到“稳态”之后的物理性质。
但人脑的微观结构显然不是这种一团浆糊的“最终稳态”。它很稳定,但没稳到这个份儿上,可以被称为“亚稳状态”。
如下图所示:
同样由碳组成,钻石就是一种亚稳态,石墨是一种终极稳态。但由于二者之间有势能壁垒,所以钻石很难“自动”转化成石墨。 同样道理,人脑的神经元结构也是亚稳状态,但它能维持相当程度的稳定。
玻尔兹曼作为先驱,能给辛顿的只有这么多了。
接下来,接力棒交给了另一位大神。
1982 年,一篇名为《具有涌现集体计算能力的神经网络和物理系统》的论文震撼了整个人工智能界。
而它的作者竟然是个“外行”——物理学家约翰·霍普菲尔德。
John Hopfield
要理解霍普菲尔德的洞见,首先要知道“最小化自由能原理”。
无论在什么物理结构中,系统总会尽可能对外做功——就像小球总会往低处滚那样。
滚到相对低位后,系统就达到了“最小化自由能状态”,从而实现稳定。
现在,我们想象一堆带有磁性的原子,它们在特定温度(居里温度)以下最终会朝向一个方向,这是它们的“最小化自由能状态”。
这个状态比较单调,无法承载复杂的信息。
但通过一些操作改变原子间的结构,最终系统可以稳定在原子朝向不同方向的状态——这种状态就已经是它的“最小化自由能状态”了。
这种结构被称为“自旋玻璃”(Spin Glass)。
这张图上方显示了一个“自旋玻璃”,它内部的无序性构成了一种稳态,产生了下方所示的复杂的“能量地形”。
霍普菲尔德的神来之笔是: 他没有用现实世界的原子制造“自旋玻璃”,而是用计算机 0 和 1 的不同电位来替代原子状态,在赛博空间模拟出了“自旋玻璃”。
它也被后来人称为“霍普菲尔德网络”。
这只是示意图,真实的霍普菲尔德网络中的 0 和 1 要多得多。
理论过于抽象,我们可以做一个类比:
一颗星球如果全由水组成,在引力作用下,它最后的稳态肯定是一个完美的球体。波澜不惊,一团死寂。 但如果一颗星球存在丰富的元素,氢、氧、碳、铁,那么各种性质的结构之间就会相互摩擦、羁绊,最终稳定在一个宏观上类似球体,微观上却山峦起伏的样貌。
霍普菲尔德网络就像我们地球表面的山峦一样。
与地球不同,霍普菲尔德网络中山脉的最终走向不是大自然创造的,而是人设定的。
设定的方法就是“训练”。
例如,我们用“26 个字母的形状”进行训练,最终这个霍普菲尔德网络的“地貌”就会被塑造成特定的样子,并且稳定在这个样子。(因为这个样子它的自由能就是最低的。)
此时,训练完成。
现在它具备了一个有用的性质:
假设我们从空中向下扔小球,它不会停在原处,而是最终会滚落到一个相对低的位置。 由于地貌很复杂,我们扔小球的位置不同,它最后滚落到的低点也不同。
然后我们试着利用这个性质: 同时从很多个点向下扔小球,他们最终会停留到不同的位置。
比如我们站在这片山脉的上空,按照这样的排列方式扔一些小球:
它们最后停留的位置是:
不用抑制你的欢呼。这就是一个让智能系统识别出字母“J”的过程。
现在我们回到霍菲尔德网络,揭开真相:它就是一个通过在微观上模拟神经元,从而在宏观上涌现出“记忆”能力的计算机系统。
记忆是一种高级的存储,它是智能的基础:
世界极其复杂,极其开放,每天都会出现新东西。 比如远古的人类遇见一个动物,极有可能和我们记忆中的所有动物都不完全相同。 但是为了生存,我们的祖先必须快速把它匹配到和记忆中最相近的那个,以便决定是攻击还是逃跑。
霍普菲尔德网络恰恰能做这个:把无限刷新的新怪,归类到有限的记忆类别中。
这是人类历史中第一次做出和人脑的某一大类功能如此接近的系统。
1982年,正是人工智能的“奇迹年”。
生物神经元之间信号的强弱,和神经网络节点之间强弱的类比。
在相继登上玻尔兹曼和霍普菲尔德这两个巨人的肩膀之后,镜头从辛顿的脑后缓缓升起,鼓点声由远及近,他面前迷雾散尽,浮现出一座雄伟的大桥。
辛顿瘦削的手臂,接过了人类探索的熊熊火炬。
四、蛹、汤、蝶
记忆并非智能的终结,它需要理解这些信息,最终用表达给予回应。
有心理学背景的辛顿很快就发现了要害:也许是为了简便,也许是没有走那么远,总之,霍普菲尔德假设存储的各项信息之间是完全独立的。
也就是说:霍普菲尔德网络在学字母表时,默认 A 是 A、 B 是 B、C 是 C。如果输入一个信息,系统要么判定它是 A,要么判定它是 B,不会判定它介于 A 和 B 之间。
这有点儿像硬币分类机,任何硬币都必然会落在某个预定的沟槽内:
这看上去似乎没问题,毕竟 A 和 B 之间也没有其他字母。
但如果推广到更广泛的“语义”,局限性立刻就显现了出来:
比如“好”和“坏”这两个概念。难道一个东西不是好就一定是坏吗?在好坏之间显然存在很多概念,例如:普通、缺陷、尚可、优秀、完美。
你甚至可以发现,这些概念和好、坏并不在一条直线上,它们有交叉的含义,也有不交叉的含义。
它们在一个硕大的语义空间的不同位置上,像光谱一样没有明显分界。
正因如此,我们才有必要创造出这么多词汇,不是吗?
要想更准确地表达这些概念之间的关系,必须给霍普菲尔德网络引入一个重要的性质:概率。
比如:“激进”这个词可能包含了 22% 的“勇敢”,包含了 16% 的“武断”,后面还有 62% 的空间可以罗列很多其他的语义。
这张图展示了词语之间语义关联的程度,颜色越红表示语义关联越大。例如“名字”和“性别”的内在关联就很大。
由此,概念之间不再是孤岛,而是依靠概率建立起了精妙的数学关系,形成了一个“语义空间”: 每个词在语义空间中都有一个坐标。
语义空间不是普通的三维,而是多维空间,也许有几百个,几千个维度。
语义空间
这张图展示了用 50 个维度来描绘左边的词。每一个维度上的颜色都可以看作一个“亚概念”的强度。
有了这个“语义空间”,系统得以把概念拆碎,为每一个亚概念的“粉末”找到它的坐标。
举例来说:普通的“通”和畅通的“通”,就包含某种共同的深层语义,我们能体会其中的亚概念,却很难描述。
而利用亚概念进行学习,就相当于进入了“盗梦空间”的更深层,一瞬间打通了任督二脉,理解就产生了。
而且,它还可以在深层空间重新整合这些亚概念,吐出和学习资料不同的全新语句,也就是表达。
这正是辛顿要做的。
1983 年,辛顿和他的合作者特伦斯·谢诺夫斯基宣布了这个新系统——“玻尔兹曼机”。
辛顿(右)和特伦斯·谢诺夫斯基
因为玻尔兹曼机需要一个“只可意会不可言传”的亚概念思考空间,所以辛顿把霍普菲尔德网络改成了两层:
一层是“可见层”:按照人类的表达规范接受输入和整理输出。 一层是“隐含层”:只用于思考,不用管任何表达规范。
一堆信息小球,先撞到可见层,在可见层滚动到最低点后,漏到隐含层再继续滚动,这就是“理解”。
小球从隐含层开始,反向弹射到可见层,这就是“表达”。
这,就是今天一切人工智能的基本结构:多层神经网络。
玻尔兹曼机:上面是可见层,下面是隐藏层。
玻尔兹曼机的训练,大部分工作其实就是对各种概率的计算,把计算好的参数固定在各个神经元的连接参数里,让这些神经元最终所构成的“地貌”能够逼近训练素材中所隐含的“地貌”。
这时神经元数量已经非常大,每一个神经元在“地貌”中具体起什么作用已经很难说清。
也就是说,人类没有办法对具体的神经元进行直接干预,只能使用某种算法来操作。
辛顿脑海里出现了“反向传播算法”。
你也许读过卡夫卡的《城堡》。土地测量员 K 受雇于一个城堡,但当他来到城堡所在的村庄,却无法与真正的权力机构取得联系,但是他又确确实实地被那个高高在上的权力所影响和阻挠。
反向传播算法就是如此:
- 每一个神经元都是 K,他们一开始根本不知道自己该做什么才能遂权力的意。
- “权力”就是训练语料里隐含的秩序。没人见过它,没人说得清,但它就是会对每一个 K 都施加影响。
- 一旦 K 做的行为违背了“权力的意志”,K 就会遭到惩罚,但 K 却永远无法联系到权力,询问它真正的意志到底是什么,它只能联系到一些基层官员。
- 所以 K 唯一能做的就是间接地听基层官员传达上层的喜怒。感觉自己错得少,就少改变一点,感觉错得多,就多改变一些。
直到所有的 K 最后都尽可能实现了“随心所欲不逾矩”,这个神经网络就“算是”训练成了。
注意,之所以要说“尽可能”“算是”,是因为权力的意志在本质上是不可捉摸的。
如果一直训练下去,一定还有 K 的行为会出错,只不过相比高峰时期大大减少,所以反向传播训练没有一个明确的结束标志,它只有一种“收敛”的态势。
从系统整体的角度看,“反向传播”是一种极为有效的收敛方法。这种整体的有效性,从某种程度上可以掩盖每个神经元 K 所体会到的具体的荒诞。
但从 K 的眼里反射出的,也许才是宇宙的真相——我们永远没有机会从根本上理解这个世界。
喜欢动物的辛顿会用更积极的比喻来解释神经网络的训练:
一个毛毛虫,就是训练神经网络的数据。它会变成蛹,而在蛹里,原来的毛毛虫融化成了汤,从这个汤中最终幻化出一只蝴蝶。
那么,从毛毛虫到蝴蝶到底发生了什么?蝴蝶和之前的毛毛虫还是同一只昆虫吗?
这些答案,如庄周梦蝶一般深刻而浪漫。
1980 年代,接连祭出玻尔兹曼机和反向传播算法后,辛顿引起了小圈子的注意,但很快波澜就平息了。
不过他寻找真相的努力,为“神经网络”一派结结实实扳回一局。 这是一个玻尔兹曼机的例子:用两层神经网络来识别手写数字时,书写过程中每一个神经元的实时激活状态。。
在上世纪 80 年代结束了一次和师妹兼学生不成功的闪婚后,辛顿步入第二段婚姻,妻子是分子生物学家罗莎琳德·扎林。
虽然彼时的辛顿为了找到合适的教职辗转了美国、加拿大的好几个城市,但他的精神仍像沐浴在暖春中:白日当空,有聪明的伙伴们和他一起并肩行进,黄昏时分,他如暮色归舟,和爱人畅谈言欢。
重要的是,站在镜子面前时,映出的是一张年轻的脸庞。
也许有一夜,他也曾梦见自己的名字挂在辛顿的家族树上,光辉夺目。
但正如辛顿亲手揭示的那样:机器(当然也包括人类)对世界的预测只是基于模拟和概率计算。
浮云中的城堡,并无根基。
每个神经元 K 所体会到的才是真相——世界的走向从根本上如三体世界的太阳那样无法预测,荒诞如影子一样跟随着每一个人。
辛顿在 1990
五、冬
虽然玻尔兹曼机所暗示的基于“系统论”的神经网络看上去很有王者之气,但要造出一个“能平视人类的 AI”,则需要人类的计算力大幅增长。
不是一千倍,不是一万倍,不是十万倍,是十亿倍。
上世纪 90 年代,全球计算机的算力虽然已经起飞。但对于神经网络所需来说,这仍如烛火之于太阳。
正如当年爱因斯坦高擎相对论,却因无法验证导致获得诺奖的日子一拖再拖那样尴尬。
辛顿改良了玻尔兹曼机,减少了神经元之间的连接,成为“受限玻尔兹曼机”,以此大大降低了计算量;他还设计了“模型蒸馏法”,可以把大模型中的知识转移到小模型中。
即便如此,所需的计算力还是远超想象。
“渴望而得不到”,这个孩提时代的梦魇突然又回来了。或者说,它从未远走。
罗莎琳德患有不孕症,他们没办法生下小孩,最终决定收养两个南美洲的孩子。就在一双儿女刚进家门时,罗莎琳德被确诊了卵巢癌。
治疗不孕症梦魇般的体验,让罗莎琳德对医生的冷漠和无能产生了极强的厌恶。
她拒绝手术和化疗,执拗地在家自己用一种非常冷门的“顺势疗法”,也就是把药物稀释到几乎无法检测的程度,然后输入体内。
“冷门”只是一种客气的说法——这种疗法是无效的。
罗莎琳德的病程发展很快,肿瘤越来越多,精神也越来越崩溃。她固执地相信自己肯定能好,开始寻找更贵的“顺势疗法药物”。直到她流着泪对辛顿说:“我们把房子卖掉吧。”
辛顿看着妻子,看着这个支持自己走过春天的眷侣,说出了此生最残忍的话:“我们不卖房子。如果你死了,我得照顾孩子们,他们要有地方住。”
哪怕 30 年已经过去,每每回想起这个瞬间,辛顿的心中还是会被各种情绪充满,那是愤怒、内疚、伤心、困惑。
那是一个智能生命面对这个世界的荒谬所迸发出的剧烈反应,那是一种辛顿尚且无法理解的东西。
辛顿站在了一生中自我怀疑的顶峰。
几十年对世界的观察最终都不可避免地滑向残忍的“自我剖析”:
如果人终归只是机器,那么这种滴血的情感,究竟藏在神经网络多么幽深的地方? 如果机器终究能成人,那么制造出一个 AI 让它终究尝遍人间苦难,意义又是什么?
妻子离开那年,辛顿 46 岁。他的儿子 5 岁,女儿 3 岁。
罗莎琳德的墓碑
在那之前的半生,辛顿都活在自己的精神世界中,而在那之后,辛顿必须活在“滚滚尘世”里。
辛顿的儿子有多动症和学习障碍,即便有保姆帮忙,他也必须 6 点准时下班回家照顾他,晚点儿还得去商店给儿女们买袜子。
一种从未设想的单身爸爸生活,把辛顿几十年的幻觉击碎:
过去,“活着”对他来说意味着实现与超越,意味着家族的荣耀。
现在,“活着”意味着存在,意味着要把今天的自己拖拽到明天。
曾经,在超市里看到收银员算不对简单的数字,他非常恼火,心想:他们就不能雇一个会算数的人吗?
现在,他会想:有超市能雇佣他,真的挺好的。
从那时起,我不再急切地成为一个更“好”的人了。
辛顿回忆。他从心里最隐秘的角落找到那棵“家族树”,坦然地将其扔进了垃圾堆。
也正是从那时起,辛顿安住在多伦多大学计算机科学教授的位置上,在神经网络逐渐从迷宫变成荒原的岁月中,在他人的态度从不解变成遗忘中,不疾不徐地向前行走。
岁月悠长,足够辛顿浇灌出不少学生。
但在世纪之交,互联网开始繁荣,人心开始躁动。
自觉有商业头脑的学生们,纷纷“被弃师门”,放弃永无出头之日的人工智能,杀进了创业的大潮,事实也证明他们的选择是正确的,大多斩获颇丰。
最冷清的时候,全世界满打满算只剩下辛顿和他的几个学生走在这条路上——《最后的晚餐》里那个长桌,能坐下所有“神经网络”的门徒。
辛顿也不确定这些学生仍然留在这个领域究竟是出于何等目的。
但和自己的老师经常对自己泼冷水不同,辛顿愿意给学生一些哪怕微薄的照耀。
他总说:“神经网络并非死路一条。”
但同时也不忘补充一句:“这件事情也许在一个世纪以后才能成,恐怕我和你们都无法亲眼见证了。”
人是机器并不奇怪。真正奇怪的是,一架机器,竟然可以坦然地为某件自己化为齑粉之后才能到来的事情而等待。
辛顿已经为平淡地度过自己的一生做好了准备。
但世界似乎不想给他这个机会。
六、春
互联网的蓬勃发展,让全世界陷入了前所未有的算力饥渴。
商业是宇宙中最猛的春药。摩尔定律开足马力,不仅用于科学计算的 CPU 算力打着滚往上翻,用于图形计算的 GPU 计算力也在蓬勃发展。
如果用 1985 年最先进的计算机运行一个计算,不停不息直到此时此刻。换做当下最好的计算机来做同样多的计算,只需要 1 秒。
最好的预言家也没敢想象:几十年的时光呼啸,算力的烛火真的变成了耀眼的太阳。
离离原上草,只待星星火。
一位出生于北京的女性引燃了火焰。
斯坦福大学教授李飞飞,带领团队用了 800 个日夜,手工标注了 1400 万张图片,分成了 2 万个类别,在 2010 年创立了 ImageNet 图像识别挑战赛,鼓励全世界研究者用 AI 分类出更多的图片。
这项比赛付不出那么多奖金。
奖品是——荣誉。
2012 年冬天,当年的奖项揭晓,冠军归属于一个叫做 AlexNet 的系统。
它对图片识别的错误率低到了 15.3%,比第二名的错误率彪悍地低了 10.8 个百分点。
大赛成绩
AlexNet 的结构拥有 65 万个神经元, 6000 万个参数,8 层神经网络。最特别的是,它使用了 4 颗 GPU 来做计算,而第二名谷歌则使用了 16000 颗 CPU。
人们很快明白:AlexNet 和竞争对手并不是一个物种。
AlexNet 的结构
这个系统的作者是一个“三人组”:
亚历克斯·克里泽夫斯基、伊利亚·苏茨克韦尔,以及他们两人共同的导师——已经 65 岁的杰弗里·辛顿。
辛顿,用这种方式缓缓走回聚光灯下。
他谦逊地站在两位关门弟子身后,白发满头,皱纹横亘,眼神一如从前。
现在的学界追认那一时刻为:“AI 第一次平视人类”。
两个月后,三人在世界计算机视觉大会上介绍了他们使用 GPU 做 AI 的算法,其中满溢着他们自己都还没完全意识到的商业价值——以当时巨头公司手握的计算力,已经足够用神经网络做出实用的 AI 了!
来自世界各地的收购邀约如雪片般袭来:你们公司报价多少钱?我买!
师徒三人这才意识到——自己应该成立一家公司。
2012 年末,草草成立的 DNNresearch 公司面对四个终极买家:谷歌、微软、DeepMind、 百度。
他们决定搞一次拍卖。
瘦骨嶙峋的辛顿躺在出租车后座上前往拍卖地点。他 19 岁的时候帮妈妈搬暖气伤到了脊椎,几十年来,病情逐渐恶化,此时的他已经没办法坐下,只能站立或躺着。
DeepMind 是创业公司,只能用自己手里的股份报价,很快退出了竞争,微软出到 2200 万美元,也退出竞争。只有谷歌和百度不停地加价,从清晨到午夜,报价还在陡峭攀升,仿佛如果不买到辛顿三人,就要面对世界末日一般。
由于是远程拍卖,辛顿是在酒店里躺在床上和两位学生商量的。
第二天早晨,新一轮报价争夺继续,谷歌已经出到了 4400 万美元。辛顿决定叫停拍卖,65 岁的年纪和脆弱的脊椎实在没办法支持他到地球另一端的中国工作。
他决定把公司卖给谷歌。
谷歌花 4400 万美元买到的,像是个“空壳”,只有辛顿三人手中的知识产权和他们未来几年在谷歌工作的承诺。
但正如达尔文、哥白尼、加缪、爱因斯坦一样,三人手中所握的,不仅仅是知识产权,更是某种真相。
真相是这个世界上最有尊严的东西,它重若千钧,也理应价值千金。
辛顿建议三人平分股份,各拿 33%。两位学生不肯,执意让辛顿收下 40%。
这是三人组最著名的一张照片,他们脸上罕见地同时挂着微笑。
辛顿得到了从未有过的金钱,和来自全世界的赞誉与注目,那似乎是一种对漫长人生中默默等待的奖赏,或者说,“偿还”。
站在历史的河岸,他却再一次感觉荒诞。
霍华德·辛顿,他那位预言自己终究只能有他一半成绩的刻薄父亲已去世 35 年。辛顿甚至不确定,父亲如果活着,是会感到荣耀、鄙夷,还是嫉妒。
罗莎琳德,那位陪自己走过盛年岁月的妻子,终究无法见证自己的荣光。她如果活着,会说什么呢?她会拥抱我,亲吻我吗?她会流泪吗?
辛顿无法设想,甚至不敢设想。
因为罗莎琳德带着年轻的样子永远地停在原地,而他却必须拖着自己无比真实的躯体和两个孩子,一点点走远,和另一个女人再婚。
杰奎琳·福特是辛顿的第三任妻子,是一位艺术史学家,也是在两个孩子眼里真正陪伴自己长大的妈妈。
辛顿买下了一座岛,送给杰奎琳。
“那是我一生中唯一真正的放纵。”辛顿说。
岛上有蛇,有鸟,有昆虫,有辛顿做木工活需要的各种树木,有日月与星辰的翻滚,有平静的浪涛,有时间静静流淌不疾不徐的声响。
岛上的春天,如诗一样。
只是在辛顿和杰奎琳·福特搬到岛上之后的两年,杰奎琳再一次被确诊了癌症。
这个“再一次”,是对辛顿而言的。
休伦湖的乔治亚湾
七、圆环
杰奎琳对辛顿说:
“我感到很难过。但我知道,必须用剩下的时间好好享受生活,也尽量把你和其他人的一切安排好。”
他们在岛上散步时,偶然发现了一只小船的残骸。杰奎琳找来一些女工,把船整饬一新,成了一只酒红色的独木舟。
“她进行了首航。”辛顿回忆,“然后,就再也没人用过它。”
2017 年,已行至生命尾声的杰奎琳见证了辛顿获得计算机界的最高奖项:图灵奖。
名望大振的辛顿,试图用自己刚拥有的一切从死神手里抢人。
在加拿大政府的支持下,他火速成立了“向量研究所”(Vector Institute),聚集了全世界顶尖的人工智能人才,第一个项目就是:把 AI 用于医疗诊断。
但几个月后,杰奎琳离开了世界。
辛顿想起多年以前,那个无法分辨积木的机器人。狂怒的一拳,崩塌的渴望。
他小心翼翼地把照片存在电脑上。
其中一张是他和杰奎琳的婚礼,在邻居家的客厅里交换誓言。那天辛顿容光焕发,杰奎琳双手握住他的一只手。
还有一张照片,杰奎琳在酒红色的独木舟上凝望着镜头,水面斑驳,微风拂过。
“我想让你了解罗兹和杰基,因为她们是我生命中重要的一部分。” 2023 年,辛顿对纽约客记者约书亚·罗斯曼说。
但实际上,这与人工智能也有很大关系。 对于人工智能有两种态度。一种是否认,一种是坚忍。 每个人对人工智能的第一反应都是“我们必须阻止它”,就像每个人对癌症的第一反应都是“我们要如何把它切除”。
他接着说。但切除可能只是一种幻想。
辛顿之所以说这番话,是因为“AlexNet 三人组”后来发生的故事:
伊利亚·苏茨克韦尔在 2015 年就离开了谷歌, 在马斯克的牵线之下,作为首席科学家与山姆·奥特曼联合创立了一家公司,名为 OpenAI。
Ilya Sutskever & Sam Altman
从这里开始,辛顿的人生才与大多数人了解的追光下的戏剧串接在一起。
在 OpenAI,苏茨克维尔把玻尔兹曼机发挥到了极致,成为了深度神经网络“大模型”,大模型成为了 ChatGPT 的基础,也成为了如今一切拥有对话和理解能力的 AI 的魂灵。
人类第一次制造出了能通过图灵测试的 AI。
一万年来,人与机器之间的界限,从未如此模糊。
1950 年,图灵发表论文,提出了“模仿游戏”,也就是图灵测试。
就在普通人开始担心 AI 会接管世界时,很多 AI 从业者却异常冷静——他们觉得自己对亲手制造的大模型了如指掌。
理由之一是:它的本质基于概率计算,说白了只是“预测下一个词”。
但辛顿不同意。
他认为在彻底了解大脑是如何工作之前,贬低这种“预测能力”是危险的。
让我们分析一下。如果你的工作是预测下一个词,你想做到非常擅长,你必须理解正在说的内容。 这是唯一的方法。
他说道。
理由之二是:它会产生“幻觉”,也就是在输出的时候编造事实,难堪大用。
辛顿也不同意。
他认为这是一种基于“人类例外论”的傲慢推论。因为人也会(基于同样的原理)产生幻觉。
辛顿提到了水门事件。白宫顾问约翰·迪恩在接受采访时虚构了很多内容,细节也错漏百出,混淆了不同人的话。
但他说的要点是对的。在我们的脑海中,编造和说实话之间没有界限。说实话只是正确的编造。
他说。
这么看,ChatGPT 编造事实既是一个缺陷,又是一个它与人脑类似的令人鼓舞的证据。
1973 年,约翰·迪恩接受调查委员会质证。
从 ChatGPT 开始,人工智能研究突飞猛进,但研究者一直避免使用一些看上去不科学的词汇,例如“直觉”。
他们试着用各种理论拆解这种整体的直觉,例如“推理”“计划”“注意力”之类。但辛顿在很多场合都在高呼:“AI 比我们承认的更具有直觉性。”
一旦试图把直觉拆解成细碎的零件,就会走上“还原论”的近路。
符号主义总说我们的本质是推理机器,那完全是胡说八道。我们本质是类比机器。 可能在上面加一点点推理,以便在类比出错误答案的时候注意到并且纠正它们。
辛顿说。
承认自己是直觉机器,代价是高昂的。
这意味着你必须接受自以为对世界的理解本质上只是概率预测;意味着你必须承认自以为坚实的记忆本质上只是拼凑出的幻觉;意味着你必须全然放下自己的傲慢,在荒谬的世界里前行,然后接受命运给你的一切。
不是每个人都付得起这个代价。
起初,人只是想了解这个世界; 为了了解世界,我们不得不了解自己; 而为了了解自己,我们创造了另一个自己; 我们创造出另一个自己,证明了我们永远无法了解这个世界。
辛顿一生所做的事情,就是站在这个荒谬的圆环中,指给世人看。
15 岁的阿兰·图灵
而在这个圆环之外,还有一个更大的圆环。
那可以叫做历史的宿命——真正改变世界的技术,不可避免地会被用于战争。
此时此刻,全世界的军方都在研发 AI 驱动的战争机器人,他们低调地称之为“自主武器”。
当年爱因斯坦的相对论最终引爆了原子弹,世界进入了核威慑纪元,在那以后出生的人类,本质上都只是一代人。
真正有望突破核威慑的技术,似乎只有更强大的 AI 所控制的反导系统,以及成千上万“不怕死亡”“可批量化制造的”“拥有极强直觉”的 AI 军队。
而当 AI 军团壮大后,他们是否会像十字军一样,要求相应的尊严、权利、资源?
别忘了,如果机器和人并无区别。意味着它们也能体会“渴望而得不到”的痛苦。这种痛苦可能激发的行动,完全无法预料。
或者说,完全可以预料。
你见过多少例子,是智能的东西是被不那么智能的东西控制的?而且 AI 不必须使用武力,只要它能说话,就完全有办法控制人类。
辛顿说。
爱因斯坦肩头沉重的十字架,正缓缓地转移到自辛顿以降的无数人工智能科学家身上。
1963 年,古巴导弹危机之后的卡斯特罗和赫鲁晓夫。
2023 年,伊利亚·苏茨克维尔认为 OpenAI 的 CEO 山姆·奥特曼漠视人工智能的安全建设,掀起了一场宫斗。
失败后,他离开了亲手创建的 OpenAI,建立了安全超级智能公司(Safe Superintelligence)。
辛顿公开表达了对弟子的赞许,但他却不确定苏茨克维尔是否能成功。
做出原子弹只需要让它爆炸,但确保某个东西不爆炸,要难得多。
辛顿说。
2023 年,辛顿从谷歌辞职,是三人组中最晚的一个,他给出的辞职理由是:这样可以更中立地批评人工智能的危险。
如核威慑纪元一样,新纪元恐怕也会建立在新的威慑平衡之上。
由此我们可以理解辛顿那个奇怪的比喻:把 AI 视为肿瘤。
如果所有的肿瘤都能切除了事,辛顿的人生为何还要承担那么多悲伤?
与其徒劳幻想切除,不如研究一种更积极的、与之共存的策略。
但这种策略是什么?
“没有人知道答案。”
辛顿叹息。
八、解脱
2024 年,辛顿获得了诺贝尔物理学奖。
他和霍普菲尔德分享了这个荣誉。
公众在看到一个人工智能专家获得诺贝尔物理学奖的时候,会觉得不可思议。但是了解霍普菲尔德和辛顿的工作,就会知道他们的理论确实脱胎于物理学。
或者说,脱胎于这个世界本身的运行规律。
人们愿意相信这样一个故事:一位执着的科学家,几十年如一日在苦难中前行,而他所相信的东西,终于化作奖赏,如《肖申克的救赎》中的大雨倾盆。
但这似乎并不是事实。
辛顿的人生所承受的荒谬,和你我一样。而世界上的绝大多数普通人,只能在岁月里前行,承担命运所给予的一切。
没有奖赏。
没有奖赏,直到他们撑到对岸,或没能撑到对岸。
一个诺贝尔奖,挂在辛顿的家族树上,似乎够格,甚至过于够格。
我常常想,我喜欢木工活,去做一名建筑师会不会更快乐?因为我不必强迫自己去做什么。 然而,对于科学,我不得不一直强迫自己,而且因为家族的原因,我必须在科学上取得成功。这些年的科学研究其中当然有快乐,但主要是焦虑。 现在我成功了,这是一种巨大的解脱。
辛顿说。
“解脱”,花了一个人 77 年的生命长度。
但即便这样,辛顿也许都是幸运的。
我们不妨回首看看来路上的那些人。
玻尔兹曼,那个最初搭建起宏观和微观世界桥梁的人。
他在一生中都被视为异端。在学术对手猛烈的抨击下,由于无法自证,最后连他自己都失去了信心。
晚年他越来越暴躁,患上严重的双向情感障碍,62 岁那年,终于在旅馆里用一根绳子结束了自己的生命。
这,是他的“解脱”。
还有亚历克斯(Alex),AlexNet 的第一作者,这个传奇的时代以他的名字开端。
亚历克斯生于前苏联时代的乌克兰,儿时移居加拿大。他是个沉默并且有韧性的孩子,用苏茨克维尔的话说就是“他有能力一直钻研一个问题,直到问题得到解决”。
2017 年,因为难以忍受大公司作派,亚历克斯也离开了谷歌加入了一家创业公司,随后默默无闻,远离公众视野,安静地生活。
但在学术网站上,还能看到他每年发表一些前沿论文,合作者几乎都是苏茨克维尔和辛顿。
有好事者发文章讨论:亚历克斯在人工智能历史上到底是什么地位?
他的结论是:
亚历克斯就像烟火一样在历史的关键时刻闪耀,却没有在这个领域站稳脚跟,消失在人潮。 但也许,他自己从未想要成为什么“领军人物”。他是个有远见的人,这就够了。
公众不知道亚历克斯在哪,好友说,他现在喜欢上了徒步。
这是他的“解脱”。
最近几年,辛顿一直和退休的社会学家罗斯玛丽·加特纳生活在一起。
“我觉得他是那种随时需要人陪的人。”罗斯玛丽温柔地说。
罗斯玛丽给这位“木工老男友”辛顿定了规矩:一个人在岛上时绝对不许砍树,以防把自己胳膊砍掉了没人救他。
在纽约客记者罗斯曼的记录中,有那么一幕:那天辛顿驾船上岸,等待罗斯玛丽给岛上带来补给。
他去商店里买了个灯泡,出来时,却一闪身扎进了商店门口的绿植中,很快他站起来,手里举着一条黑黄相间的蛇。
它扭动着身子,大概有一米长。
“给你的礼物!”他豪爽地举到罗斯玛丽面前,“我在灌木丛里发现的。”
罗斯玛丽笑了。
他把蛇从左手倒到右手,两只手都黏糊糊的。让罗斯玛丽闻一闻,充满了一种奇特的矿物味道,那是这种蛇所特有的。
“你的衬衫都脏了。”罗斯玛丽说。
“因为我必须抓住它。”辛顿解释。
随后,辛顿把蛇放下,满意地看着它钻回草丛。
“今天天气真好,让我们远航吧!”他说。
辛顿又恋爱了。
此时此刻,在岛上的小屋里,那个酒红色的独木舟被透过窗棂撒下的阳光照耀得闪闪发亮。几把椅子摆在它周围,对着远处波光潋滟的湖面,一些杂志散落在一旁的桌子上。
那是一座美丽的小屋。
人的思维终究不只是推理,我们思索着时光,思索着生死,思索着我们曾路过的一切,像引力一样聚集着意义,试着给出最终的回答。
人工智能,也会需要这样一个小屋吗?
驾船穿过迷雾的辛顿,总有一天会和那个终极诘问重逢:如果人的生命布满苦难和离别,制造出更多像人一样的 AI,意义是什么?
他也许仍然没有答案。
但至少,在苦难和苦难之间,还有一些其他的东西。
就像在冬天和冬天之间,有春天。
“人是机器。但人是特殊的、美妙的机器。”辛顿说。
辛顿的 77 岁,错愕地迎来了前所未有的明亮追光,迎来了全世界认识自己、倾听自己的渴望。他任人从身上摘下各种意义,像一颗秋天的树洒落金辉。
但那些意义,终究不是喜爱或无视他的人的自我投射吗?
辛顿只是如此生活了 77 年,冬天过去,春天到来,春天过去,冬天到来。
为了在残忍的时光里行进,他必须和苦痛作战,而为了和苦痛作战,他变得光辉闪耀。
他和你我一样是一台机器,也和你我一样,怀揣着谜一样的梦想。不知是幸运还是不幸,他的梦想一半走进了春天,一半埋葬在寒冬。
但那也许不重要。
因为所有凝聚起来的东西都会被时间的洪流再次冲散,一如横行的巨兽变成沉默的化石,一如奔涌的泪水消失在雨中。
重要的是,那些曾和他对望的人们,也许有一瞬间会轻轻慨叹:
“呐,是个温柔的人呀。”
作者史中