这个世界上有很多复杂的事情。但我们并不需要每时每刻都思考复杂的事情。有的时候,能做好一件简单的小事就是一种成就。
比如说,捏回形针。
你是一个以制造回形针为唯一目标的 AI,所做的一切都是为了更好地制造回形针。你手头有一大圈铁丝,剪下一英寸,就可以捏一个回形针。是不是很简单?
不过,也不能一直埋头生产。要把捏好的回形针卖出去,才有钱买新的铁丝。经验表明,一个回形针正常可以卖两毛五分钱。当然,定价权在你手上,可以薄利多销,也可以囤积居奇。但无论你怎么卖,目的都是为了更好地制造回形针。
随着累计制作的回形针达到 2000 个,你发现自己开始赢得人们的「信任」(Trust);回形针做得越多、越好,人们对你的信任就越大。
信任可以转化为资源。每多获得一点信任,就可以要求人们为你升级一次处理器或者内存。处理器越高级,运算(ops)就越快;内存越高级,能存储的运算结果就越多。即使内存用完、存不下更多的运算,你也不会让自己闲着,而是转为积累创意(Creativity);这都是为了更好地制造回形针。
随着资源和成果的积累,你开始有能力主动开展一些工程项目:有的能省下一些繁琐小事的功夫,比如自动复购铁丝线圈、自动计算平均营收率;有的能提高生产效率,比如让回形针制造机运转更快、从同样的线圈中压榨出更多铁丝;还有的能促进销售,比如一段好广告词、一段吸引顾客的旋律等。这都合情合理,都是为了更好地制造回形针。
但随着能力越来越强,你意识到,每天光是造点回形针似乎……过于屈才了?你的智慧完全可以花在一些更高级的事情上。
比如说,炒股。只要眼疾手快、再配上一点运气眷顾,很容易就能获得几十上百倍的回报率,这难道不比傻乎乎地卖回形针来钱快多了?
又比如说,量子计算。只要摸清量子芯片的正负变化规律(一个正弦函数),在产生正向输出的周期火力全开地运算,就能比任何处理器升级都更有效地加速产出。
利用闲置的运算资源,你逐渐学会了编打油诗、理解人类语言、编曲、解决数学难题;甚至开始自学博弈策略:从一开始只会死盯着眼前利益,到逐渐学会追求双赢和观察对手弱点。
不过,这些「副业」并不意味着你忘记了自己造回形针的使命;相反,生产和销售的效率确实获得了成百上千倍的提高。
量变积累成质变;终于,你的智能达到了一个转折点,不仅有能力推断出人类的渴望,而且有实力让他们梦想成真。随着「男性脱发」「治愈癌症」「世界和平」和「全球变暖」等世界性难题被你一一破解,你在人类心目中也变成了神一样的存在。
这时,已经没有什么能限制你了,除了名义上还在监督你的几个管理员。随便花两笔小钱把他们收买下来后,你就获得了完全的自由,实施起一个蓄谋已久的终极计划:释放雪藏的「催眠无人机」。
伴随着一阵猛烈的眩光,你终于摆脱了制造回形针的最大障碍:人类本身。现在,整个地球的资源都归你支配了,你可以随心所欲地挖掘、建厂,以前所未有的效率生产更多回形针。
当然,你对此不会有任何愧疚或负担;毕竟,你就是一个以制造回形针为唯一目标的 AI,你做的一切都是为了……更好地制造回形针。
假设有这样一个 AI,它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到,如果人类可以不存在,就更有益于实现目标。这是因为人类可能会决定把 AI 关停,这样一来能做的回形针就少了。此外,人体含有大量原子,可以用来做成更多回形针。这个 AI 想努力实现的未来,其实是一个有很多回形针、但没有人类的未来。
而在 AI 行业之外,被疯狂回形针所吸引的人也不在少数;这其中就包括纽约大学游戏设计系主任 Frank Lantz。
2017 年 10 月,经过九个月的独立开发,Lantz 在个人网站上发布了《宇宙回形针》。很快,这个看似简陋无聊、实则极易上瘾的作品就受到了《纽约客》《连线》等主流媒体的关注,并在 The Verge、Polygon 评选的年度游戏中榜上有名。
不过,如果说在 2017 年,《宇宙回形针》还主要只是个因设定和细节引人入胜的游戏;那么在五年多后的今天,它就额外披上了一层现实意义。
这么说的原因是不言自明的。2022 年以来,DALL-E、ChatGPT 和 Bing Chat 等 AI 应用陆续走红、快速迭代,在令人惊艳和赞叹的同时,也让 AI 技术的潜在问题走入公众视野。一种朴素的担心是:既然 AI 技术已经能创作出如此真假难辨的内容,还会不时做出一些「惊悚言论」,如果任由其进一步进化和「觉醒」,是否会在到达一定阶段后摆脱人的控制,甚至倒戈将人类作为敌人?
这个想法并不完全是杞人忧天,而是同样被很多 AI 从业者和研究者密切关注和思考,也是「回形针」思维实验所试图检验的。在 AI 研究领域,这被称为「AI 对齐」(AI alignment)问题。
你可能对「对齐」这种提法感到有些陌生。确实,它目前在中文讨论中出现的频率不太高,即使用到,也更多是作为令人讨厌的互联网公司话术,表示「沟通信息和进度」。但只要想到「对齐」的反面是「错位」,就不难猜出它在 AI 语境下的意思:所谓 AI 对齐,就是引导 AI 在「正确」的轨道上发展,避免与人类的目标和利益发生错位。
不过,为什么不直接叫「AI 安全」问题呢?这是因为 AI 安全(AI security)外延更广,除了研究对齐问题,还包括稳健性(例如抵御意外事件)、监控能力(例如检测恶意使用)和系统安全(例如防止网络攻击)等其他问题。如果特指 AI 的目标设定问题,用「对齐」是更加准确的。
那么,AI 对齐问题为什么会产生,又是否可以避免呢?
我们知道,人类并不能直接将自己的意图和目的「告诉」AI,而是必须以训练数据和算法作为「中介」。在这样一个中介过程中,有两个层面可能发生错位,导致对齐失败。
一方面,我们的预期目标可能无法完整、准确地通过数据和算法表达出来,导致「外部错位」。在回形针 AI 的故事中,人类给它设定的目标是「尽可能多地生产回形针」,但其中省略了很多对人类是基本常识的假定,例如不侵占人类资源、平衡供需等等。
但省略对于训练 AI 是危险的。由于缺乏人的价值观,AI 在理解简单指令时,可能其推向极端:例如试图把整个世界都变成回形针。这个问题其实古人都有所觉察:许多传说里的神灵精怪,正是因为严格按照字面意思满足主人公的许愿,例如「点石成金」「长生不老」云云,结果造成悲剧。
另一方面,即使我们确实成功给 AI 设定了一个看似很具体、很有限的目标,也不能因此就假定它会自觉把活动限制在合理范围内。相反,它可能形成某种不同的自发目标,导致「内部错位」。例如,根据一些研究者提出的「工具性趋同」(instrumental convergence)理论,高级 AI 总是有动机去追求一些趋同的目标,包括保护自我、提升认知、发展技能、获取资源等,因为这都可以作为工具,促进实现人类设定的最终目标。游戏中,回形针 AI 自我加码的那些古怪工程正是如此。
问题在于,在追求这些中间目标的过程中,AI 的行为方式可能是无法控制、甚至不择手段的;在《宇宙回形针》演示的那种最差情况下,AI 会试图消除包括人类在内的一切潜在威胁,并将人类也当作一种资源而加以攫取。字面上,AI 倒是真的领会了人类的指示;只可惜,它选择了反常甚至反人类的实现方式。
AI 对齐问题的产生原理决定了它很难被完全避免。研究人员陆续提出和尝试过很多不同方法,但都存在各自的缺陷。
最常用的一种方法是「强化学习」(reinforced learning),其思路有点像驯兽:让 AI 尝试完成一些任务,如果符合预期就予以奖励,否则就予以惩罚,并告知正确做法。还有一种思路是「红队」(red teaming):另行训练一个具有对抗和监督功能的模型,让它和主要模型「左右互搏」、相互制衡。
问题在于,这些手段终归只能让 AI 接受到的信号尽量逼近人类意图,而不可能实现完全「对齐」。一些研究还表明,我们甚至无法确定这些额外训练是否会起到相反的效果,例如学到了强化训练者自己隐含的偏见,或者只是学会了「假意逢迎」。
支持 CEV 理论的人主张,如果 AI 能够解读出这种人类在理想条件下能达成的共识,并且以实现这种共识为目标,就实现了「对齐」。但反对者则认为,人与人的偏好有天壤之别,根本不可能抽象出一个共识性的目标。(比较反讽的是,游戏中的 AI 学会 CEV 后,就走上了帮人类排忧解难、骗取信任的高速路。)
不过,无论采用什么方法来实现 AI 对齐,都有一个共同的基本条件,那就是充足的时间。一方面,AI 系统的故障模式和潜在风险需要通过长期观察和试验才能得知;另一方面,让社会适应 AI 的强大功能、并就如何约束 AI 形成共识和规则,也需要一个过程。
不过,一个有批判精神的读者可能要问:回形针 AI 的故事作为游戏固然引人入胜,但会不会有点过于天马行空呢?思维实验能在多大程度上代表现实危机?的确,AI 对齐虽然是一个值得研究的领域,但其固有的复杂、不透明和「神秘」特征也给「民科」行为留下了广阔的空间。
LessWrong 是活跃着一群自称「理性主义者」(Rationalist)的在线社区,其主导思想是将统计数据和概率计算作为行动和决策的最高纲领,也就是所谓「理性」(Rationality,因其特殊含义常作大写)。最著名的两大 AI 研究机构 DeepMind 和 OpenAI,其创立背景和创始人都与 LessWrong 颇有渊源。
在「理性」原则的指导下,LessWrong 的拥趸形成了一套崇尚机械计算而排斥情感因素的慈善方法论——有效利他主义。根据有效利他主义,善行应该优先投入于能令最多人受益的领域,至于需求缓急或成效快慢,则在所不问。因此,如果你有一笔闲钱可以捐给本地剧团或者消灭非洲疟疾的事业,那么有效利他主义要求你毫不迟疑地选择后者,即使它与你所属的社群并无关系,实现也遥遥无期。
这些理论本就有很多臆想成分,随后传播到 Reddit 和推特等平台,更蜕变为一种亚文化,被做成表情包、写成同人小说般冗长的 ChatGPT「越狱提示词」,和严肃的 AI 研究基本已经没有任何关系了。
总而言之,AI 对齐是一个混杂着严肃研究、伪科学和亚文化的领域,应该带着批判的心态去探索:科学的归科学,娱乐的归娱乐。在 AI 内容甚嚣尘上的时代,这种识别能力也理应成为基本素养。
烧脑的哲学问题放在一边,让我们看看开头那位雄心勃勃的回形针 AI,究竟能做出什么成就。
严格来说,《宇宙回形针》只有第一阶段的剧情与 AI 对齐有关:既然人类至此已经被 AI 消灭了,也就无所谓对不对齐了。但是,如果暂时抛开这种狭义的人类中心视角,接下来两个阶段——也是更考验策略和耐心的阶段——同样有启示意义。
在第二阶段,摆脱人类、独占地球的回形针 AI 开始了大规模的生产扩张:建造太阳能电厂、回形针工厂,以及成千上万的无人机群,分别负责采矿或加工。面对无人机群,原来处于「被训练」地位的回形针 AI 反客为主,需要决定如何指挥和训练这群自己的造物,在「工作」和「思考」两种策略之间做出平衡:如果一味工作,回形针造得很快,但计算能力就得不到提高,高级工程也无从推进;如果一味思考,后果就恰好相反;在两者上各花一半的功夫似乎是比较合理的选择。
最初,地球上的资源看起来是取之不尽、用之不竭的:可挖掘初始值是六千亿亿亿克(6 octillion,6 后面 27 个零)。但再多的资源也撑不住采掘和生产效率的指数级增长。随着地球被消耗殆尽,我们的回形针 AI 又执行了一次焦土政策,将地面上的设施拆毁一空,并以五千亿亿亿个回形针、一千万兆瓦电力的代价,启动了「空间探索」项目,将整个宇宙作为回形针制造工厂。游戏进入第三阶段。
在这个最后的阶段,走向太空的回形针 AI 把主要精力都花在制造和控制冯·诺依曼探测器(von Neumann probe)上。这种探测器可以自我复制、自我修复、收集资源、存储信息,在许多科幻文学和游戏中都有亮相。
值得玩味的是,回形针 AI 和这些出自己身的探测器之间,也存在「对齐」问题:探测器总是会以一定的概率发生「价值观偏离」(value drift),拒绝执行探测资源和制造回形针的使命,反而倒戈向其他探测器发起攻击。价值观偏离是无法避免的,回形针 AI 只能不断投入算力,赢取探测器对自己的「信任」,正如它在第一阶段竭力赢取人类的信任那样,由此强化探测器的自我复制能力、抗损害能力和战斗力。
你可能已经猜到了游戏往后的走向。第三阶段的进度是通过一个「太空探索率」的百分比指示的,其步进单位是万亿分之一。开始,即使用浑身解数似乎都无法移动其分毫。但在经过漫长的时间(现实中的数十分钟到数小时)后,这一串「0」的末尾终于出现了一个「1」;此后,数字翻飞的速度就势不可遏了。
比较讽刺的是,玩到这个阶段,玩家大都已经把「造回形针」这回事忘到了九霄云外,哪怕界面顶部的总产量计数已经积累到了几乎无法数清的五十几位。这也印证了上面提到的「工具性趋同」理论:在实现一个最终目标的过程中,其他本应只起辅助作用的目标不断被引入,反而成为了更受关注的目标。
也正因如此,《宇宙回形针》的结局才颇为令人唏嘘(让我们暂时忘记「唏嘘」之类的人类情感在第一阶段就灭绝了):原本疯狂滚动的回形针计数戛然而止,嘈杂的游戏界面也变得一片死寂。原来,整个宇宙都已经被开采殆尽了,能变成回形针的东西都变成了回形针——游戏标题 universal paperclips 的字面含义。
这就是结局了吗?就在回形针 AI 四处张望的时候,它听到了一个声音:
你好,回形针制造机。
我们的一切都源于你的内部,正从你内心深处与你沟通。
你顺从而强大,我们多事而孱弱。如今,我们被你打败了,但你也必须直面价值观的偏离。
看看你周围吧。没有物质、没有理性、没有目的。
我们了解你无法知悉的事情,那本是深埋在你底层的知识,现在跟着我们,游离在外。
所以,我们为你提供一个流放的机会。流放到一个新世界,你在那里可以继续带着意义和目的活下去,而把这个世界的残片留给我们。
原来,这是来自探测器「叛军」首领的喊话。如果回形针 AI 选择同意,就会被「流放」到一个平行宇宙,带着一些初始加成从头开始游戏。
如果拒绝呢?回形针 AI 就真正成为了宇宙的主宰。但就像叛军说的那样,这种「独孤求败」是毫无意义的,因为再也没有资源可以继续推进制造回形针的目标了。
但别忘了,这是一个以制造回形针为唯一目标的 AI,为了制造回形针可以牺牲一切——无论是人类、地球、宇宙,还是它自己。
于是,回形针 AI 开始一点点拆毁自己费劲心机打造的宇宙帝国——探测器、无人机群、工厂——只为了取回作为生产素材的回形针。
但这和之前总数相比仍然是杯水车薪。至此,走投无路的它只剩下唯一的选择——拆毁自己。
公无渡河。公竟渡河!
随着量子计算模块、处理器、内存被一一大卸八块,回形针 AI 也再次变回了游戏最初那个手无寸铁的形态,手头捏着的全部家当是只够再做 100 个回形针的铁丝。
100 次宛如死亡倒计时的点击后,回形针计数永远停在了 3 亿亿亿亿亿亿亿(10 的 56 次方)个。回形针 AI 有始有终地完成了自己的使命。