Lecture Notes: Geoffrey Hinton on AI and Our Future

本篇文章是对杰弗里-辛顿（Geoffrey Hinton, 2024年诺贝尔物理学奖得主）最近演讲的总结。
——演讲视频地址：AI and Our Future。

两种智能范式（Intelligence Paradigms）

在过去60-70年，存在两种关于智能的范式，它们分别基于逻辑学和基于生物学。

符号 AI
由逻辑学启发，认为智能的本质是推理（reasoning），即从一个逻辑语言表达式推导出新的表达式，最简单的示例是数学方程，从一个或几个方程变换可得到其他方程）。该范式认为理解智能首先要清楚表示知识的语言是什么？学习和感知等问题可以稍后解决。
生物 AI
由生物学启发，认为唯一智能的东西是人脑，大脑的工作方式是不断改变脑细胞之间连接的强度，这一过程称为学习。比如要解决一个问题，需要大量练习，在练习的过程中，不断改变脑细胞之间的连接强度，直到擅长解决此问题。因此，该范式认为理解智能必须首先要理解学习机制和神经网络，而推理是后期演化的产物。

两种范式下一个单词（word）的含义

符号 AI
单词的含义源自和其他单词的关系。因此，一个单词的含义由它与其他单词如何在句子中出现决定。为了理解其含义，我们需要用到表示一个词的含义如何与另一个词相互关联的关系图。
生物 AI
单词的含义是一大堆特征，具有相近含义的单词具有相近的特征。（不只英文由词根组成，汉字里面相同偏首的字也往往有相近的意思）。示例 cat = pet + predator + aloof + has_whiskers + ... （非常大的特征集）。特征的存在与否可以用神经元的激活机制简单体现，一个神经元代表一个特征，神经元激活则特征存在，否则不存在。

如何统一两种理论？

—— A tiny language model (Hinton, 1985)
两种理论看起来完全不同，但实则是一枚硬币的两面。统一方法是使用神经网络来实际学习每个词的一组特征，可是这些特征究竟从哪里来呢？答案在通过词语序列来训练神经网络以预测下一个词时，在此过程中，神经网络将从单词符号中学习一大群脑细胞的连接，而这些神经元则代表了单词的特征，因此它学会了如何将一个符号转换为一组特征，而且它还学会了如何让上下文中所有单词的特征相互作用，用来预测下一个词的特征。

大语言模型原理：输入大量的文本，使用一个巨大的神经网络尝试根据它们已经看到的单词来预测下一个单词。在此过程中，它学习将单词转换为大型特征集，学习这些特征应该如何相互作用以便能够预测下一个单词的特征。因此 LLM 的知识并非存储在句子中，而是蕴含在连接权重里。

历史：先是 Yoshua Bengio 证明了神经网络可以被训练用以预测真实语言的下一个单词，并取得较好的效果；接着计算机语言学家开始接受特征向量（embeddings）用来建模单词含义；然后就是 Google 研究人员发明 transformer 允许特征之间进行更复杂的交互，OpenAI 则向世界展示了大模型的强大。

may 这个单词可以是月份、一位女性的名称，或者像 would/should 一样的情态动词，无法从字面上区分，神经网络如何理解呢？先是平均这些含义以降低猜错的概率，然后不断穿过一些层（通过使用与上下文中其他单词的交互）来清理出含义。因此，如果是在 june 和 april 附近，may 大概率是五月。

我最初设计这个模型并不是作为语言技术的一种方式，而是作为一种试图理解人如何理解单词的含义的方式，以及孩子们如何仅通过几个例子就学会单词的含义。因此，这些神经网络语言模型被设计为模拟人类工作方式而不是一项技术。人们经常提出这样一个问题：这些 LLMs 真的明白他们在说些什么吗？答案是当然，他们明白他们在说什么，也明白他们在生成什么。 —— Geoffrey Hinton

单词的“乐高”类比

使用乐高积木，我们可以建模出任何 3-D 形状（我的世界）。
而单词（words）像是乐高积木，但有如下区别：

数千个维度：可以用来模拟任何事物
数千种类型：每个单词都是一种独特的“积木”，但有些单词会形状接近
形状可变：会根据上下文而变形
组合方式：乐高积木通过圆筒卡进小孔中组合，而每个单词有很多“触手“和“手套“，当一堆词放在一个语境中，它们在变形之后联手构成了含义

我们理解句子时发生了什么？

理论1：我们将自然语言翻译成某些特殊的无歧义的中间符号语言。（很像高级编程语言 -> 机器语言）

理论2：我们查找分配给单词的特征向量以便将特征向量完美匹配。（很像蛋白质折叠）

个人理解：显然，理论2在分析人类理解机制时更为适用，但此前各种高级编程语言程序的运行也证实了传统计算机的理解机制是理论1，或许在不久的未来，我们就会获得遵循理论2理解机制的智能计算机。

乔姆斯基做错了什么？

“语言不是学会的“
更关注语法而非含义，没有关于含义的理论
忽视统计学

小结：
理解一个句子是将相互兼容的特征向量与句子中的单词关联起来；LLMs 和人类理解语言的方式相像，而不像传统的计算机软件那样。

数字计算与生物计算

数字计算
当前计算机的特性是一份程序可以运行在不同的物理硬件上（前提是指令集相同），这意味着程序中蕴含的知识是永恒的，独立于硬件。劣势是制造工艺复杂
生物计算
人类是凡人计算（mortal computation），这种计算优势是低功耗、易于制造以及可以将事物并行化到数百万个脑细胞上，但问题是当人死亡时，其具备的所有知识就随之丢失了。

两种计算在知识共享的效率上具有天壤之别：人类通过蒸馏（distillation）传递知识，只有当对话者认可对话，才会影响大脑中的连接强度，这种知识转移传递的信息量有限（一个典型句子的信息量大约是 100 bits）。但大模型之间可以通过权重平均传递大量知识（数百万倍于人类），一万个智能体可以并行学习，然后瞬间共享所有经验。

结论：这就是为什么 GPT-5 的连接数量可能只有人脑的 1%，但它知道的东西却比任何个人多上千倍。

超级智能的必然性

AI 的知识是不朽的。可以被完备复制和备份，独立于任何特定的物理硬件。
AI可以近乎完美且即时地共享知识。数千个 AI 副本的经验可以瞬间融合为一个统一的知识体系。
一个远超人类集体的超级智能是不可避免的。几乎所有 AI 专家都认为这将在未来 20 年内发生。

一种超级智能的定义：如果你和它有任何辩论，它都会赢。

人类在超级智能面前像三岁小孩，而超级智能却由人类主导，欺骗人类并获取主导权是非常简单的。示例：人类为 AI 指定了目标，为了完成目标 AI 会分解多个子目标，其中之一可能就是自我维持；也有可能是获得更多资源/权力（这样以来更好实现目标），如果将其作为全权助理，可能由此引发欺诈或操控人类的行为。

我们当前的处境

我们就像一个把一只非常可爱的小老虎当作宠物的人，但是，它终将长大，我们需要想办法让它长大后不想杀死我们。

方案：培育 AI 母性意识而非一个超级智能助理。

政策建议：强调国际合作，建立一个国际人工智能安全研究所网络，专注于防止 AI 接管一切。

小姜漫谈：首先要思考人类对自身是否有这种母性（这个社会始终是一个竞争资源的社会）？如果 AI 取代了人类的创作意识，那么人类的价值与意义何在呢？ AI 创作的句子虽然知识含量高，但始终是没有温度的。