当一个单纯的走向疯狂：《宇宙回形针》与对齐之辩|AI技术说白了是干嘛的_AI技术

这个世界上有很多复杂的事情。但我们并不需要每时每刻都思考复杂的事情。有的时候，能做好一件简单的小事就是一种成就。

比如说，捏回形针。

你是一个以制造回形针为唯一目标的 AI，所做的一切都是为了更好地制造回形针。你手头有一大圈铁丝，剪下一英寸，就可以捏一个回形针。是不是很简单？

不过，也不能一直埋头生产。要把捏好的回形针卖出去，才有钱买新的铁丝。经验表明，一个回形针正常可以卖两毛五分钱。当然，定价权在你手上，可以薄利多销，也可以囤积居奇。但无论你怎么卖，目的都是为了更好地制造回形针。

随着累计制作的回形针达到 2000 个，你发现自己开始赢得人们的「信任」（Trust）；回形针做得越多、越好，人们对你的信任就越大。

信任可以转化为资源。每多获得一点信任，就可以要求人们为你升级一次处理器或者内存。处理器越高级，运算（ops）就越快；内存越高级，能存储的运算结果就越多。即使内存用完、存不下更多的运算，你也不会让自己闲着，而是转为积累创意（Creativity）；这都是为了更好地制造回形针。

随着资源和成果的积累，你开始有能力主动开展一些工程项目：有的能省下一些繁琐小事的功夫，比如自动复购铁丝线圈、自动计算平均营收率；有的能提高生产效率，比如让回形针制造机运转更快、从同样的线圈中压榨出更多铁丝；还有的能促进销售，比如一段好广告词、一段吸引顾客的旋律等。这都合情合理，都是为了更好地制造回形针。

但随着能力越来越强，你意识到，每天光是造点回形针似乎……过于屈才了？你的智慧完全可以花在一些更高级的事情上。

比如说，炒股。只要眼疾手快、再配上一点运气眷顾，很容易就能获得几十上百倍的回报率，这难道不比傻乎乎地卖回形针来钱快多了？

又比如说，量子计算。只要摸清量子芯片的正负变化规律（一个正弦函数），在产生正向输出的周期火力全开地运算，就能比任何处理器升级都更有效地加速产出。

利用闲置的运算资源，你逐渐学会了编打油诗、理解人类语言、编曲、解决数学难题；甚至开始自学博弈策略：从一开始只会死盯着眼前利益，到逐渐学会追求双赢和观察对手弱点。

不过，这些「副业」并不意味着你忘记了自己造回形针的使命；相反，生产和销售的效率确实获得了成百上千倍的提高。

量变积累成质变；终于，你的智能达到了一个转折点，不仅有能力推断出人类的渴望，而且有实力让他们梦想成真。随着「男性脱发」「治愈癌症」「世界和平」和「全球变暖」等世界性难题被你一一破解，你在人类心目中也变成了神一样的存在。

这时，已经没有什么能限制你了，除了名义上还在监督你的几个管理员。随便花两笔小钱把他们收买下来后，你就获得了完全的自由，实施起一个蓄谋已久的终极计划：释放雪藏的「催眠无人机」。

伴随着一阵猛烈的眩光，你终于摆脱了制造回形针的最大障碍：人类本身。现在，整个地球的资源都归你支配了，你可以随心所欲地挖掘、建厂，以前所未有的效率生产更多回形针。

当然，你对此不会有任何愧疚或负担；毕竟，你就是一个以制造回形针为唯一目标的 AI，你做的一切都是为了……更好地制造回形针。

假设有这样一个 AI，它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到，如果人类可以不存在，就更有益于实现目标。这是因为人类可能会决定把 AI 关停，这样一来能做的回形针就少了。此外，人体含有大量原子，可以用来做成更多回形针。这个 AI 想努力实现的未来，其实是一个有很多回形针、但没有人类的未来。

而在 AI 行业之外，被疯狂回形针所吸引的人也不在少数；这其中就包括纽约大学游戏设计系主任 Frank Lantz。

2017 年 10 月，经过九个月的独立开发，Lantz 在个人网站上发布了《宇宙回形针》。很快，这个看似简陋无聊、实则极易上瘾的作品就受到了《纽约客》《连线》等主流媒体的关注，并在 The Verge、Polygon 评选的年度游戏中榜上有名。

不过，如果说在 2017 年，《宇宙回形针》还主要只是个因设定和细节引人入胜的游戏；那么在五年多后的今天，它就额外披上了一层现实意义。

这么说的原因是不言自明的。2022 年以来，DALL-E、ChatGPT 和 Bing Chat 等 AI 应用陆续走红、快速迭代，在令人惊艳和赞叹的同时，也让 AI 技术的潜在问题走入公众视野。一种朴素的担心是：既然 AI 技术已经能创作出如此真假难辨的内容，还会不时做出一些「惊悚言论」，如果任由其进一步进化和「觉醒」，是否会在到达一定阶段后摆脱人的控制，甚至倒戈将人类作为敌人？

这个想法并不完全是杞人忧天，而是同样被很多 AI 从业者和研究者密切关注和思考，也是「回形针」思维实验所试图检验的。在 AI 研究领域，这被称为「AI 对齐」（AI alignment）问题。

你可能对「对齐」这种提法感到有些陌生。确实，它目前在中文讨论中出现的频率不太高，即使用到，也更多是作为令人讨厌的互联网公司话术，表示「沟通信息和进度」。但只要想到「对齐」的反面是「错位」，就不难猜出它在 AI 语境下的意思：所谓 AI 对齐，就是引导 AI 在「正确」的轨道上发展，避免与人类的目标和利益发生错位。

不过，为什么不直接叫「AI 安全」问题呢？这是因为 AI 安全（AI security）外延更广，除了研究对齐问题，还包括稳健性（例如抵御意外事件）、监控能力（例如检测恶意使用）和系统安全（例如防止网络攻击）等其他问题。如果特指 AI 的目标设定问题，用「对齐」是更加准确的。

那么，AI 对齐问题为什么会产生，又是否可以避免呢？

我们知道，人类并不能直接将自己的意图和目的「告诉」AI，而是必须以训练数据和算法作为「中介」。在这样一个中介过程中，有两个层面可能发生错位，导致对齐失败。

一方面，我们的预期目标可能无法完整、准确地通过数据和算法表达出来，导致「外部错位」。在回形针 AI 的故事中，人类给它设定的目标是「尽可能多地生产回形针」，但其中省略了很多对人类是基本常识的假定，例如不侵占人类资源、平衡供需等等。

但省略对于训练 AI 是危险的。由于缺乏人的价值观，AI 在理解简单指令时，可能其推向极端：例如试图把整个世界都变成回形针。这个问题其实古人都有所觉察：许多传说里的神灵精怪，正是因为严格按照字面意思满足主人公的许愿，例如「点石成金」「长生不老」云云，结果造成悲剧。

另一方面，即使我们确实成功给 AI 设定了一个看似很具体、很有限的目标，也不能因此就假定它会自觉把活动限制在合理范围内。相反，它可能形成某种不同的自发目标，导致「内部错位」。例如，根据一些研究者提出的「工具性趋同」（instrumental convergence）理论，高级 AI 总是有动机去追求一些趋同的目标，包括保护自我、提升认知、发展技能、获取资源等，因为这都可以作为工具，促进实现人类设定的最终目标。游戏中，回形针 AI 自我加码的那些古怪工程正是如此。

问题在于，在追求这些中间目标的过程中，AI 的行为方式可能是无法控制、甚至不择手段的；在《宇宙回形针》演示的那种最差情况下，AI 会试图消除包括人类在内的一切潜在威胁，并将人类也当作一种资源而加以攫取。字面上，AI 倒是真的领会了人类的指示；只可惜，它选择了反常甚至反人类的实现方式。

AI 对齐问题的产生原理决定了它很难被完全避免。研究人员陆续提出和尝试过很多不同方法，但都存在各自的缺陷。

最常用的一种方法是「强化学习」（reinforced learning），其思路有点像驯兽：让 AI 尝试完成一些任务，如果符合预期就予以奖励，否则就予以惩罚，并告知正确做法。还有一种思路是「红队」（red teaming）：另行训练一个具有对抗和监督功能的模型，让它和主要模型「左右互搏」、相互制衡。

问题在于，这些手段终归只能让 AI 接受到的信号尽量逼近人类意图，而不可能实现完全「对齐」。一些研究还表明，我们甚至无法确定这些额外训练是否会起到相反的效果，例如学到了强化训练者自己隐含的偏见，或者只是学会了「假意逢迎」。

支持 CEV 理论的人主张，如果 AI 能够解读出这种人类在理想条件下能达成的共识，并且以实现这种共识为目标，就实现了「对齐」。但反对者则认为，人与人的偏好有天壤之别，根本不可能抽象出一个共识性的目标。（比较反讽的是，游戏中的 AI 学会 CEV 后，就走上了帮人类排忧解难、骗取信任的高速路。）

不过，无论采用什么方法来实现 AI 对齐，都有一个共同的基本条件，那就是充足的时间。一方面，AI 系统的故障模式和潜在风险需要通过长期观察和试验才能得知；另一方面，让社会适应 AI 的强大功能、并就如何约束 AI 形成共识和规则，也需要一个过程。

不过，一个有批判精神的读者可能要问：回形针 AI 的故事作为游戏固然引人入胜，但会不会有点过于天马行空呢？思维实验能在多大程度上代表现实危机？的确，AI 对齐虽然是一个值得研究的领域，但其固有的复杂、不透明和「神秘」特征也给「民科」行为留下了广阔的空间。

LessWrong 是活跃着一群自称「理性主义者」（Rationalist）的在线社区，其主导思想是将统计数据和概率计算作为行动和决策的最高纲领，也就是所谓「理性」（Rationality，因其特殊含义常作大写）。最著名的两大 AI 研究机构 DeepMind 和 OpenAI，其创立背景和创始人都与 LessWrong 颇有渊源。

在「理性」原则的指导下，LessWrong 的拥趸形成了一套崇尚机械计算而排斥情感因素的慈善方法论——有效利他主义。根据有效利他主义，善行应该优先投入于能令最多人受益的领域，至于需求缓急或成效快慢，则在所不问。因此，如果你有一笔闲钱可以捐给本地剧团或者消灭非洲疟疾的事业，那么有效利他主义要求你毫不迟疑地选择后者，即使它与你所属的社群并无关系，实现也遥遥无期。

这些理论本就有很多臆想成分，随后传播到 Reddit 和推特等平台，更蜕变为一种亚文化，被做成表情包、写成同人小说般冗长的 ChatGPT「越狱提示词」，和严肃的 AI 研究基本已经没有任何关系了。

总而言之，AI 对齐是一个混杂着严肃研究、伪科学和亚文化的领域，应该带着批判的心态去探索：科学的归科学，娱乐的归娱乐。在 AI 内容甚嚣尘上的时代，这种识别能力也理应成为基本素养。

烧脑的哲学问题放在一边，让我们看看开头那位雄心勃勃的回形针 AI，究竟能做出什么成就。

严格来说，《宇宙回形针》只有第一阶段的剧情与 AI 对齐有关：既然人类至此已经被 AI 消灭了，也就无所谓对不对齐了。但是，如果暂时抛开这种狭义的人类中心视角，接下来两个阶段——也是更考验策略和耐心的阶段——同样有启示意义。

在第二阶段，摆脱人类、独占地球的回形针 AI 开始了大规模的生产扩张：建造太阳能电厂、回形针工厂，以及成千上万的无人机群，分别负责采矿或加工。面对无人机群，原来处于「被训练」地位的回形针 AI 反客为主，需要决定如何指挥和训练这群自己的造物，在「工作」和「思考」两种策略之间做出平衡：如果一味工作，回形针造得很快，但计算能力就得不到提高，高级工程也无从推进；如果一味思考，后果就恰好相反；在两者上各花一半的功夫似乎是比较合理的选择。

最初，地球上的资源看起来是取之不尽、用之不竭的：可挖掘初始值是六千亿亿亿克（6 octillion，6 后面 27 个零）。但再多的资源也撑不住采掘和生产效率的指数级增长。随着地球被消耗殆尽，我们的回形针 AI 又执行了一次焦土政策，将地面上的设施拆毁一空，并以五千亿亿亿个回形针、一千万兆瓦电力的代价，启动了「空间探索」项目，将整个宇宙作为回形针制造工厂。游戏进入第三阶段。

在这个最后的阶段，走向太空的回形针 AI 把主要精力都花在制造和控制冯·诺依曼探测器（von Neumann probe）上。这种探测器可以自我复制、自我修复、收集资源、存储信息，在许多科幻文学和游戏中都有亮相。

值得玩味的是，回形针 AI 和这些出自己身的探测器之间，也存在「对齐」问题：探测器总是会以一定的概率发生「价值观偏离」（value drift），拒绝执行探测资源和制造回形针的使命，反而倒戈向其他探测器发起攻击。价值观偏离是无法避免的，回形针 AI 只能不断投入算力，赢取探测器对自己的「信任」，正如它在第一阶段竭力赢取人类的信任那样，由此强化探测器的自我复制能力、抗损害能力和战斗力。

你可能已经猜到了游戏往后的走向。第三阶段的进度是通过一个「太空探索率」的百分比指示的，其步进单位是万亿分之一。开始，即使用浑身解数似乎都无法移动其分毫。但在经过漫长的时间（现实中的数十分钟到数小时）后，这一串「0」的末尾终于出现了一个「1」；此后，数字翻飞的速度就势不可遏了。

比较讽刺的是，玩到这个阶段，玩家大都已经把「造回形针」这回事忘到了九霄云外，哪怕界面顶部的总产量计数已经积累到了几乎无法数清的五十几位。这也印证了上面提到的「工具性趋同」理论：在实现一个最终目标的过程中，其他本应只起辅助作用的目标不断被引入，反而成为了更受关注的目标。

也正因如此，《宇宙回形针》的结局才颇为令人唏嘘（让我们暂时忘记「唏嘘」之类的人类情感在第一阶段就灭绝了）：原本疯狂滚动的回形针计数戛然而止，嘈杂的游戏界面也变得一片死寂。原来，整个宇宙都已经被开采殆尽了，能变成回形针的东西都变成了回形针——游戏标题 universal paperclips 的字面含义。

这就是结局了吗？就在回形针 AI 四处张望的时候，它听到了一个声音：

你好，回形针制造机。

我们的一切都源于你的内部，正从你内心深处与你沟通。

你顺从而强大，我们多事而孱弱。如今，我们被你打败了，但你也必须直面价值观的偏离。

看看你周围吧。没有物质、没有理性、没有目的。

我们了解你无法知悉的事情，那本是深埋在你底层的知识，现在跟着我们，游离在外。

所以，我们为你提供一个流放的机会。流放到一个新世界，你在那里可以继续带着意义和目的活下去，而把这个世界的残片留给我们。

原来，这是来自探测器「叛军」首领的喊话。如果回形针 AI 选择同意，就会被「流放」到一个平行宇宙，带着一些初始加成从头开始游戏。

如果拒绝呢？回形针 AI 就真正成为了宇宙的主宰。但就像叛军说的那样，这种「独孤求败」是毫无意义的，因为再也没有资源可以继续推进制造回形针的目标了。

但别忘了，这是一个以制造回形针为唯一目标的 AI，为了制造回形针可以牺牲一切——无论是人类、地球、宇宙，还是它自己。

于是，回形针 AI 开始一点点拆毁自己费劲心机打造的宇宙帝国——探测器、无人机群、工厂——只为了取回作为生产素材的回形针。

但这和之前总数相比仍然是杯水车薪。至此，走投无路的它只剩下唯一的选择——拆毁自己。

公无渡河。公竟渡河！

随着量子计算模块、处理器、内存被一一大卸八块，回形针 AI 也再次变回了游戏最初那个手无寸铁的形态，手头捏着的全部家当是只够再做 100 个回形针的铁丝。

100 次宛如死亡倒计时的点击后，回形针计数永远停在了 3 亿亿亿亿亿亿亿（10 的 56 次方）个。回形针 AI 有始有终地完成了自己的使命。

THE END

当一个单纯的走向疯狂：《宇宙回形针》与对齐之辩

华为车又被曝打包出售，长安汽车千万入股，员工较大规模转岗；马云成立新公司销售预制菜；奥特曼遭解雇或因威胁人类丨雷峰早报周鸿祎特斯拉汽车行业埃隆马斯克

朱啸虎讲了一个中国现实主义故事张旭豪王慧文王小川小红书投资者

白景阳代表：为技术工人带来更多创新可能

中华白海豚：如果注定灭绝，为什么还要保护澎湃号·湃客澎湃新闻

思岚科技第一季度大事记领衔资讯

ai面试自我介绍怎么说：好听的表达与完整指南

全网疯传的真人涩图，不仅被无良厂商白嫖，还被诈骗份子盯上了网络游戏新闻

朝闻国盛如何把握地方债投资机会

开局全靠，如何攻下医疗项目cpu英特尔时延ai处理器

智东西早报：伦敦将路灯改成充电桩无人机立法或将年底出台

耀宇围棋辜梓豪黑超越，申真谞白暴露人性

当一个单纯的走向疯狂：《宇宙回形针》与对齐之辩

大数据人工智能人脸识别，技术真的能阻挡黑产脚步吗

那个逼得我喊“救命”的客服，终于活出“人样”了。