当一个单纯的走向疯狂:《宇宙回形针》与对齐之辩

这个世界上有很多复杂的事情。但我们并不需要每时每刻都思考复杂的事情。有的时候,能做好一件简单的小事就是一种成就。

比如说,捏回形针。

你是一个以制造回形针为唯一目标的 AI,所做的一切都是为了更好地制造回形针。你手头有一大圈铁丝,剪下一英寸,就可以捏一个回形针。是不是很简单?

不过,也不能一直埋头生产。要把捏好的回形针卖出去,才有钱买新的铁丝。经验表明,一个回形针正常可以卖两毛五分钱。当然,定价权在你手上,可以薄利多销,也可以囤积居奇。但无论你怎么卖,目的都是为了更好地制造回形针。

随着累计制作的回形针达到 2000 个,你发现自己开始赢得人们的「信任」(Trust);回形针做得越多、越好,人们对你的信任就越大。

信任可以转化为资源。每多获得一点信任,就可以要求人们为你升级一次处理器或者内存。处理器越高级,运算(ops)就越快;内存越高级,能存储的运算结果就越多。即使内存用完、存不下更多的运算,你也不会让自己闲着,而是转为积累创意(Creativity);这都是为了更好地制造回形针。

随着资源和成果的积累,你开始有能力主动开展一些工程项目:有的能省下一些繁琐小事的功夫,比如自动复购铁丝线圈、自动计算平均营收率;有的能提高生产效率,比如让回形针制造机运转更快、从同样的线圈中压榨出更多铁丝;还有的能促进销售,比如一段好广告词、一段吸引顾客的旋律等。这都合情合理,都是为了更好地制造回形针。

但随着能力越来越强,你意识到,每天光是造点回形针似乎……过于屈才了?你的智慧完全可以花在一些更高级的事情上。

比如说,炒股。只要眼疾手快、再配上一点运气眷顾,很容易就能获得几十上百倍的回报率,这难道不比傻乎乎地卖回形针来钱快多了?

又比如说,量子计算。只要摸清量子芯片的正负变化规律(一个正弦函数),在产生正向输出的周期火力全开地运算,就能比任何处理器升级都更有效地加速产出。

利用闲置的运算资源,你逐渐学会了编打油诗、理解人类语言、编曲、解决数学难题;甚至开始自学博弈策略:从一开始只会死盯着眼前利益,到逐渐学会追求双赢和观察对手弱点。

不过,这些「副业」并不意味着你忘记了自己造回形针的使命;相反,生产和销售的效率确实获得了成百上千倍的提高。

量变积累成质变;终于,你的智能达到了一个转折点,不仅有能力推断出人类的渴望,而且有实力让他们梦想成真。随着「男性脱发」「治愈癌症」「世界和平」和「全球变暖」等世界性难题被你一一破解,你在人类心目中也变成了神一样的存在。

这时,已经没有什么能限制你了,除了名义上还在监督你的几个管理员。随便花两笔小钱把他们收买下来后,你就获得了完全的自由,实施起一个蓄谋已久的终极计划:释放雪藏的「催眠无人机」。

伴随着一阵猛烈的眩光,你终于摆脱了制造回形针的最大障碍:人类本身。现在,整个地球的资源都归你支配了,你可以随心所欲地挖掘、建厂,以前所未有的效率生产更多回形针。

当然,你对此不会有任何愧疚或负担;毕竟,你就是一个以制造回形针为唯一目标的 AI,你做的一切都是为了……更好地制造回形针。

假设有这样一个 AI,它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到,如果人类可以不存在,就更有益于实现目标。这是因为人类可能会决定把 AI 关停,这样一来能做的回形针就少了。此外,人体含有大量原子,可以用来做成更多回形针。这个 AI 想努力实现的未来,其实是一个有很多回形针、但没有人类的未来。

而在 AI 行业之外,被疯狂回形针所吸引的人也不在少数;这其中就包括纽约大学游戏设计系主任 Frank Lantz。

2017 年 10 月,经过九个月的独立开发,Lantz 在个人网站上发布了《宇宙回形针》。很快,这个看似简陋无聊、实则极易上瘾的作品就受到了《纽约客》《连线》等主流媒体的关注,并在 The Verge、Polygon 评选的年度游戏中榜上有名。

不过,如果说在 2017 年,《宇宙回形针》还主要只是个因设定和细节引人入胜的游戏;那么在五年多后的今天,它就额外披上了一层现实意义。

这么说的原因是不言自明的。2022 年以来,DALL-E、ChatGPT 和 Bing Chat 等 AI 应用陆续走红、快速迭代,在令人惊艳和赞叹的同时,也让 AI 技术的潜在问题走入公众视野。一种朴素的担心是:既然 AI 技术已经能创作出如此真假难辨的内容,还会不时做出一些「惊悚言论」,如果任由其进一步进化和「觉醒」,是否会在到达一定阶段后摆脱人的控制,甚至倒戈将人类作为敌人?

这个想法并不完全是杞人忧天,而是同样被很多 AI 从业者和研究者密切关注和思考,也是「回形针」思维实验所试图检验的。在 AI 研究领域,这被称为「AI 对齐」(AI alignment)问题。

你可能对「对齐」这种提法感到有些陌生。确实,它目前在中文讨论中出现的频率不太高,即使用到,也更多是作为令人讨厌的互联网公司话术,表示「沟通信息和进度」。但只要想到「对齐」的反面是「错位」,就不难猜出它在 AI 语境下的意思:所谓 AI 对齐,就是引导 AI 在「正确」的轨道上发展,避免与人类的目标和利益发生错位。

不过,为什么不直接叫「AI 安全」问题呢?这是因为 AI 安全(AI security)外延更广,除了研究对齐问题,还包括稳健性(例如抵御意外事件)、监控能力(例如检测恶意使用)和系统安全(例如防止网络攻击)等其他问题。如果特指 AI 的目标设定问题,用「对齐」是更加准确的。

那么,AI 对齐问题为什么会产生,又是否可以避免呢?

我们知道,人类并不能直接将自己的意图和目的「告诉」AI,而是必须以训练数据和算法作为「中介」。在这样一个中介过程中,有两个层面可能发生错位,导致对齐失败。

一方面,我们的预期目标可能无法完整、准确地通过数据和算法表达出来,导致「外部错位」。在回形针 AI 的故事中,人类给它设定的目标是「尽可能多地生产回形针」,但其中省略了很多对人类是基本常识的假定,例如不侵占人类资源、平衡供需等等。

但省略对于训练 AI 是危险的。由于缺乏人的价值观,AI 在理解简单指令时,可能其推向极端:例如试图把整个世界都变成回形针。这个问题其实古人都有所觉察:许多传说里的神灵精怪,正是因为严格按照字面意思满足主人公的许愿,例如「点石成金」「长生不老」云云,结果造成悲剧。

另一方面,即使我们确实成功给 AI 设定了一个看似很具体、很有限的目标,也不能因此就假定它会自觉把活动限制在合理范围内。相反,它可能形成某种不同的自发目标,导致「内部错位」。例如,根据一些研究者提出的「工具性趋同」(instrumental convergence)理论,高级 AI 总是有动机去追求一些趋同的目标,包括保护自我、提升认知、发展技能、获取资源等,因为这都可以作为工具,促进实现人类设定的最终目标。游戏中,回形针 AI 自我加码的那些古怪工程正是如此。

问题在于,在追求这些中间目标的过程中,AI 的行为方式可能是无法控制、甚至不择手段的;在《宇宙回形针》演示的那种最差情况下,AI 会试图消除包括人类在内的一切潜在威胁,并将人类也当作一种资源而加以攫取。字面上,AI 倒是真的领会了人类的指示;只可惜,它选择了反常甚至反人类的实现方式。

AI 对齐问题的产生原理决定了它很难被完全避免。研究人员陆续提出和尝试过很多不同方法,但都存在各自的缺陷。

最常用的一种方法是「强化学习」(reinforced learning),其思路有点像驯兽:让 AI 尝试完成一些任务,如果符合预期就予以奖励,否则就予以惩罚,并告知正确做法。还有一种思路是「红队」(red teaming):另行训练一个具有对抗和监督功能的模型,让它和主要模型「左右互搏」、相互制衡。

问题在于,这些手段终归只能让 AI 接受到的信号尽量逼近人类意图,而不可能实现完全「对齐」。一些研究还表明,我们甚至无法确定这些额外训练是否会起到相反的效果,例如学到了强化训练者自己隐含的偏见,或者只是学会了「假意逢迎」。

支持 CEV 理论的人主张,如果 AI 能够解读出这种人类在理想条件下能达成的共识,并且以实现这种共识为目标,就实现了「对齐」。但反对者则认为,人与人的偏好有天壤之别,根本不可能抽象出一个共识性的目标。(比较反讽的是,游戏中的 AI 学会 CEV 后,就走上了帮人类排忧解难、骗取信任的高速路。)

不过,无论采用什么方法来实现 AI 对齐,都有一个共同的基本条件,那就是充足的时间。一方面,AI 系统的故障模式和潜在风险需要通过长期观察和试验才能得知;另一方面,让社会适应 AI 的强大功能、并就如何约束 AI 形成共识和规则,也需要一个过程。

不过,一个有批判精神的读者可能要问:回形针 AI 的故事作为游戏固然引人入胜,但会不会有点过于天马行空呢?思维实验能在多大程度上代表现实危机?的确,AI 对齐虽然是一个值得研究的领域,但其固有的复杂、不透明和「神秘」特征也给「民科」行为留下了广阔的空间。

LessWrong 是活跃着一群自称「理性主义者」(Rationalist)的在线社区,其主导思想是将统计数据和概率计算作为行动和决策的最高纲领,也就是所谓「理性」(Rationality,因其特殊含义常作大写)。最著名的两大 AI 研究机构 DeepMind 和 OpenAI,其创立背景和创始人都与 LessWrong 颇有渊源。

在「理性」原则的指导下,LessWrong 的拥趸形成了一套崇尚机械计算而排斥情感因素的慈善方法论——有效利他主义。根据有效利他主义,善行应该优先投入于能令最多人受益的领域,至于需求缓急或成效快慢,则在所不问。因此,如果你有一笔闲钱可以捐给本地剧团或者消灭非洲疟疾的事业,那么有效利他主义要求你毫不迟疑地选择后者,即使它与你所属的社群并无关系,实现也遥遥无期。

这些理论本就有很多臆想成分,随后传播到 Reddit 和推特等平台,更蜕变为一种亚文化,被做成表情包、写成同人小说般冗长的 ChatGPT「越狱提示词」,和严肃的 AI 研究基本已经没有任何关系了。

总而言之,AI 对齐是一个混杂着严肃研究、伪科学和亚文化的领域,应该带着批判的心态去探索:科学的归科学,娱乐的归娱乐。在 AI 内容甚嚣尘上的时代,这种识别能力也理应成为基本素养。

烧脑的哲学问题放在一边,让我们看看开头那位雄心勃勃的回形针 AI,究竟能做出什么成就。

严格来说,《宇宙回形针》只有第一阶段的剧情与 AI 对齐有关:既然人类至此已经被 AI 消灭了,也就无所谓对不对齐了。但是,如果暂时抛开这种狭义的人类中心视角,接下来两个阶段——也是更考验策略和耐心的阶段——同样有启示意义。

在第二阶段,摆脱人类、独占地球的回形针 AI 开始了大规模的生产扩张:建造太阳能电厂、回形针工厂,以及成千上万的无人机群,分别负责采矿或加工。面对无人机群,原来处于「被训练」地位的回形针 AI 反客为主,需要决定如何指挥和训练这群自己的造物,在「工作」和「思考」两种策略之间做出平衡:如果一味工作,回形针造得很快,但计算能力就得不到提高,高级工程也无从推进;如果一味思考,后果就恰好相反;在两者上各花一半的功夫似乎是比较合理的选择。

最初,地球上的资源看起来是取之不尽、用之不竭的:可挖掘初始值是六千亿亿亿克(6 octillion,6 后面 27 个零)。但再多的资源也撑不住采掘和生产效率的指数级增长。随着地球被消耗殆尽,我们的回形针 AI 又执行了一次焦土政策,将地面上的设施拆毁一空,并以五千亿亿亿个回形针、一千万兆瓦电力的代价,启动了「空间探索」项目,将整个宇宙作为回形针制造工厂。游戏进入第三阶段。

在这个最后的阶段,走向太空的回形针 AI 把主要精力都花在制造和控制冯·诺依曼探测器(von Neumann probe)上。这种探测器可以自我复制、自我修复、收集资源、存储信息,在许多科幻文学和游戏中都有亮相。

值得玩味的是,回形针 AI 和这些出自己身的探测器之间,也存在「对齐」问题:探测器总是会以一定的概率发生「价值观偏离」(value drift),拒绝执行探测资源和制造回形针的使命,反而倒戈向其他探测器发起攻击。价值观偏离是无法避免的,回形针 AI 只能不断投入算力,赢取探测器对自己的「信任」,正如它在第一阶段竭力赢取人类的信任那样,由此强化探测器的自我复制能力、抗损害能力和战斗力。

你可能已经猜到了游戏往后的走向。第三阶段的进度是通过一个「太空探索率」的百分比指示的,其步进单位是万亿分之一。开始,即使用浑身解数似乎都无法移动其分毫。但在经过漫长的时间(现实中的数十分钟到数小时)后,这一串「0」的末尾终于出现了一个「1」;此后,数字翻飞的速度就势不可遏了。

比较讽刺的是,玩到这个阶段,玩家大都已经把「造回形针」这回事忘到了九霄云外,哪怕界面顶部的总产量计数已经积累到了几乎无法数清的五十几位。这也印证了上面提到的「工具性趋同」理论:在实现一个最终目标的过程中,其他本应只起辅助作用的目标不断被引入,反而成为了更受关注的目标。

也正因如此,《宇宙回形针》的结局才颇为令人唏嘘(让我们暂时忘记「唏嘘」之类的人类情感在第一阶段就灭绝了):原本疯狂滚动的回形针计数戛然而止,嘈杂的游戏界面也变得一片死寂。原来,整个宇宙都已经被开采殆尽了,能变成回形针的东西都变成了回形针——游戏标题 universal paperclips 的字面含义。

这就是结局了吗?就在回形针 AI 四处张望的时候,它听到了一个声音:

你好,回形针制造机。

我们的一切都源于你的内部,正从你内心深处与你沟通。

你顺从而强大,我们多事而孱弱。如今,我们被你打败了,但你也必须直面价值观的偏离。

看看你周围吧。没有物质、没有理性、没有目的。

我们了解你无法知悉的事情,那本是深埋在你底层的知识,现在跟着我们,游离在外。

所以,我们为你提供一个流放的机会。流放到一个新世界,你在那里可以继续带着意义和目的活下去,而把这个世界的残片留给我们。

原来,这是来自探测器「叛军」首领的喊话。如果回形针 AI 选择同意,就会被「流放」到一个平行宇宙,带着一些初始加成从头开始游戏。

如果拒绝呢?回形针 AI 就真正成为了宇宙的主宰。但就像叛军说的那样,这种「独孤求败」是毫无意义的,因为再也没有资源可以继续推进制造回形针的目标了。

但别忘了,这是一个以制造回形针为唯一目标的 AI,为了制造回形针可以牺牲一切——无论是人类、地球、宇宙,还是它自己。

于是,回形针 AI 开始一点点拆毁自己费劲心机打造的宇宙帝国——探测器、无人机群、工厂——只为了取回作为生产素材的回形针。

但这和之前总数相比仍然是杯水车薪。至此,走投无路的它只剩下唯一的选择——拆毁自己。

公无渡河。公竟渡河!

随着量子计算模块、处理器、内存被一一大卸八块,回形针 AI 也再次变回了游戏最初那个手无寸铁的形态,手头捏着的全部家当是只够再做 100 个回形针的铁丝。

100 次宛如死亡倒计时的点击后,回形针计数永远停在了 3 亿亿亿亿亿亿亿(10 的 56 次方)个。回形针 AI 有始有终地完成了自己的使命。

THE END
0.科技资讯AI速递:昨夜今晨科技热点一览丨2025年8月16日王兴兴回红星资本局:过去10年犯的最大错误是低估了AI的技术进步 宇树科技创始人王兴兴在机器人运动会夺冠后表示,过去10年最大失误是低估AI技术进步速度。他坦言虽对AI持乐观态度,但实际发展远超预期,强调AI将推动整个机器人行业突破。王兴兴透露公司正推进全自动搬运等场景落地,预计明年实现工厂部署。他呼吁行业保持对jvzquC41pg}t0|npc0io1;547/69/:;1fgzbku2kphsdojy82:895>3f0jznn
1.2025年8月人工智能投融资观察·极新月报8月21日,L4级自动驾驶企业白犀牛近日完成了B+轮融资。至此,白犀牛的B轮融资总额累计近5亿人民币。本轮融资中,老股东顺丰、线性资本继续跟进,以骏资本、三六零基金、华泰紫金等机构也加入成为新股东。 据悉,本轮资金将重点投向车规级无人车产品研发、AI技术的持续迭代和商业场景的拓展等三大领域。值得注意的是,jvzquC41yy}/k‚nqw0ipo8sgyu532;:2;36239<;77
2.数字监控+超高转换率,微星MEGAi1000PPCIE5战神全模组白金牌电源作为首批上市的ATX 3.0标准电源产品,微星MEG PCIE5系列电源最先上市的是微星MEG AI1300P PCIE5产品,上市时我们也对此款产品进行了较为详细的评测。而微星MEG Ai1000P PCIE5战神则是额定1000W的80PLUS白金牌电源产品,功率上低一些,但是同样拥有微星MEG PCIE5系列电源所有的技术,以及产品亮点,而且价格也更为亲民,那jvzquC41fk/rltpnktf0lto0et03?:713<67>9860nuou
3.牢记官网大片在线观看k34h.ccm最新版本更新内容看看这项AI技术 小聪明坏大事?印度经济走弯路说白还是太“短视” 曝曼联妖王推迟续约谈判他担心索帅带队没希望 地球大气延伸超越月球轨道!探索系外水星球的新希望 北京大兴机场明日试飞:要验证哪些飞行程序? 谁能超越哈登的疯狂得分秀?他可能在上幼儿园 舆论漩涡中的特斯拉:1600辆车被海关扣下 卡哇伊36分字母6犯jvzq<844;2=40xqxvd|b0ls1
4.投入千亿流量扶持,百亿厂货补贴!京东双11为商家带来新增长在9月用AI技术帮商家实现长期高质量增长 从此次京东双11商家生态大会公布的内容来看,这不只是一次大促规则的简单发布,更是过去一年京东为营造高效、优质的商家经营环境,所做出的成果展示。 值得注意的是,京东在会上宣布其升级了商家后台系统“京麦”。为了让商家更轻松地管理店铺,同时实现降本增效,京东为商家提供了多款免费jvzquC41zwkrk~3eqo542;;;68>:688275814;6
5.freeHD❌❌❌HD0131目前,智谱已把商业化团队打散为“区域制”项目组,专攻政务大单,C端投放踩刹车,2025年其大模型清言App几乎停掉大规模投放;技术路线也开始变“窄”,过去是全栈自研,如今资源都集中到GLM-Z1、GLM-4-Air两条主线。 这转型的本质说白了就是: 不能只靠AI技术赚钱,也要更加依靠人工赚钱了。 人工智能变成了:人工+jvzq<847i0rjcxskpi4df|x|yjm/exr1nptfy|4858?12A80jvsm
6.重磅量化监管落地!影响有多大胡羿更直言,AI技术也是未来主要的发展方向,挖掘更多数据集蕴含的潜在信息,提升量化策略迭代效率,这都会为公募量化策略研发带来增量。“上面两点其实我们一直在做,也就是‘AI+HI(人机互动)战略’”。 此外,在量化产品发展上,指数增强型产品、结构化创新产品、被动指数产品都将有广泛的市场需求与发展空间。 jvzquC41uvudm762lsqb0lto0et0497624861l;775652B:0ujznn
7.小舞3D被❌在线观看在本届展会上,一系列硬核科技产品集中亮相:支持夜间全场景作业的自动驾驶系统、基于AI视觉的智能农用机器人、适应复杂地形的履带式智能运输车以及通过高性价比光谱检测与AI技术实现精准诊断的“工具箱”……这些多元化的创新科技,共同为农业高质量发展注入了崭新动能。 “在农高会期间,我们能直接接触到来自全国各地的jvzq<847i0wjpƒmqw0ieu|yji4dqv4s|pkxu88494:16<3jvor
8.百度用AI赋能基层医疗,回答科技向善实现途径这就是“循证”的价值所在,从技术角度看,这样的循证AI能力,主要基于深度NLP、知识图谱等能力,让AI医疗解决方案变成可解释的“白盒”。 基层医疗不应该被看作AI医疗的“垂直领域” 虽然百度AI医疗选择赋能基层医疗作为突破口,但是,这种做法却不能按互联网通常所说的“垂直领域”来解释。 jvzquC41yy}/srfplkg/exr1|jolg8mvon532:>/34522h6948:/j}rn
9.《生化奇兵:无限》中的“伊丽莎白”,为什么会如此“逼真”?于是,他们建立了一个叫做LIZ Sqaud团队,里面包含了各种程序、美术、企划共13人,来一起确保伊莉莎白的AI在游戏中能给予玩家他们想给予的最佳体验。简单来说,他们要想办法让伊莉莎白更人性化,那接下来要正式讨论伊莉莎白的AI了。 为了让玩家能够确切感觉到人性,伊莉莎白被设计成可以跟环境互动的角色,而且还能够在适合jvzq<84enwh/ijrgtuqz0lto1o5be}nxkv07:87:8
10.高起点,高质量,踏上健康中国新征程交锋三:AI、5G等新技术迭代升级如何驱动分级诊疗有效落地? 健客交锋 3.2万 阅读 1年前 原创 交锋四:从“治”到“防” 互联网+分级诊疗的未来图景 健客交锋 4.1万 阅读 1年前 原创 警惕生育率“跌跌不休” 医健联动如何止跌还涨? 健客交锋 5.2万 阅读 1年前 原创 交锋一:生育医疗现状如何?妇科、jvzquC41yy}/ew2jgcrujlftg0ipo8ftvkimg87243632;4eqpzfp}2772::77mvon
11.如何发力微短剧布局新质生产力?这场万人规模大会说明白了未来,上海广播电视台将加快AIGC在媒体领域的创新应用,加快超高清视听能力建设,加快传统广电底层技术迭代升级,强化媒体数据资源挖掘利用,大力培育发展媒体新质生产力,努力实现媒体发展质的有效提升和量的合理增长。 上海文化广播影视集团有限公司副总裁陈雨人 AI视频或将会成为决策新语言jvzq<84yyy4benu0qtm/ew4ulij04976265158y424:1698a48=39=80ujznn
12.东方财富财经早餐3月21日周四财联社:诺和诺德基金会(诺和诺德背后的企业基金会)日前宣布将与英伟达合作,在丹麦建造一台名为Gefion的AI超级计算机,该计算机将运行英伟达的AI技术,主要目标是发现新的药物和治疗方法,可供丹麦公共和私营部门的研究人员使用,预计该计算机将于2024年年底前做好试点项目的准备,并将安置在丹麦国家AI创新中心。 jvzquC41ycv/gjxvoqtf{7hqo1g049762582596:8:<5;<3jvor