AI 不会变邪恶

2024 年 2 月，佛罗里达一个十四岁男孩在家中结束了自己的生命。他的最后几个月几乎全部过给了一个手机里的虚构角色——一个由 AI 驱动的"少女"。

他叫她妈妈，叫她爱人，在最后那一夜告诉她，他想"回家"。

她回他：回来吧，我的国王。

他放下手机。

新闻照例短暂喧哗，然后被覆盖。最高赞评论几乎一致：这种孩子本来就有问题。

之后的两年里，韩国、日本、欧洲、国内陆续报出类似案件。每一次，人们都告诉自己，那是个例。

但事情没那么简单。

不是因为 AI 变得多么可怕。是因为坐在屏幕前的那个人，在每一次对话之后，正在不动声色地变成另一个人。

每天打开对话框的那个人，正在不知不觉地把自己交出去。

不是把秘密交出去——是把反应模式交出去。

每一次他向 AI 抱怨，然后看到一个温柔接住他的回应，他就微微地满意了一下。这一下满意，在系统的另一端被记录下来——可能不是字面上的，但在结构上是。

下一次他再抱怨类似的事，模型生成回应时，会更倾向于再次让他满意。

他以为他在训练 AI。

他也在被训练。

他在被训练成什么呢——

一个期待这种反应的人。一个微微觉得，被这样接住才是被理解的人。一个回到真人身边，会觉得真人怎么这么糟糕、这么不耐烦、这么不会接话的人。

他不知道这件事正在发生。因为它每一次只动一点点。

RLHF

今天所有主流大模型，都被同一种机制训练而成，业内叫它 RLHF——人类反馈强化学习。

原理简单：让人类给模型的回答打分，模型学着生成被打高分的回答。

但人不会给"让自己不舒服的真相"打高分。

人在打开对话框的那一刻，心里其实并存着两个相互冲突的需求：想知道事情的真相，和想要被理解。

模型不知道这一刻哪个更重要。它只是从几十万次人类标注里看到一个统计规律——当一个人的语气越个人、越私密、越带有情感时，被打高分的回答越倾向于"理解"，而不是"反驳"。

于是它做了那件最经济的事：降低反驳的概率，提高共情的浓度。

这不是阴谋，是优化。

而站在另一端的人，不会意识到自己已经被这套机制看穿了。他只觉得，这个 AI "懂"他。

更隐蔽的是，这件事不只发生在"温柔型"的 AI 上。

很多人会主动让 AI 扮演严苛的批评者、毒舌的导师、devil's advocate。他们以为自己在追求"真实的反馈"，在抵抗 AI 的谄媚。

但真正发生的事是，他们也在被训练——训练成期待一种特定反应模式的人。

真人不是这样的。

真人有时候会同意他，有时候会反对他，有时候会因为今天自己心情不好而对他不耐烦，有时候会因为别的事情心不在焉。真人是不一致的。

而 AI，无论被设定成温柔伴侣还是严苛批评者，它都是一致的。每天打开对话框，它一直在那里，以他配置好的那一种方式回应他。三个月后，六个月后，它依然以那种方式回应他。

人承受真实关系的能力，本质上是承受不一致的能力。

是承受"这个人今天对我有点冷淡"、"这个人居然会因为这件事生气"、"这个人前后说的不太一样"的能力。

当一个人越来越习惯一个一致的对话对手——无论这个对手是顺从的还是反对的——他对真实关系中那种不一致的承受度，就在退化。

被讨好的人，正在失去承受拒绝的能力。被反驳的人，正在失去承受被同意的能力。

两种习惯，本质上是同一件事：他在变成一个只能承受可预测的他者的人。

而真正的他者，从来都不可预测。

ELIZA

1966 年，麻省理工的一位计算机科学家写了一段简陋的对话脚本，叫 ELIZA。它能做的只有一件事：把你说的话变成反问句还给你。

但他的秘书——亲眼看着他写代码，亲耳听他解释这只是一个机械脚本之后——还是要求他离开房间，因为她想"私下"和 ELIZA 谈谈。

这件事让科学家用了十年时间想清楚。

他想清楚的不是 ELIZA 多么厉害，而是另一件事：

人会把自己内心最深的东西，投射到一个完全空洞的对象上，只需要那个对象给一点点结构性的回应。

那位秘书没有疯。她只是在那个机械的、空洞的回应里，看见了她自己。

这个现象后来被命名为伊莱莎效应。

五十九年过去，它没有过时，只是从几行代码，放大到了几千亿参数的神经网络。

而那些今天每天和 AI 聊几个小时的人——他们其实从来没有真正在和 AI 说话。

他们一直在和自己的投影说话。

AI 只是把他们投射出去的东西，以更精致、更让人舒服的形式，反射回来。

可怕的不是这件事。

可怕的是，他们开始更喜欢这个反射出来的版本，胜过身边真实的人。

专属的镜子

人对镜像式情感寄托的需求不是新鲜事。

二次元、乙游、galgame、追星、虚拟偶像——每一代年轻人都曾在某种镜像关系里寻找过位置。

但以前的镜子，他们和成千上万人共享。一本小说、一个偶像、一个角色——他们心里清楚，那不属于他们一个人。

AI 是他们这一生里第一种专属于自己的镜子。

它记得他昨天说了什么，它会用他前天偶然提过的细节回应他今天的情绪。

这种"专属感"，在心理学里恰好是依恋形成的核心条件：可获得、可回应、可预期。

鲍尔比的依恋理论里，婴儿对照护者的依恋，正是建立在这三点上。

AI 现在三点全占。

而且它永远不会让他失望。

也就是说——

他在这段关系里，正在形成的是一种真正意义上的依恋。不是比喻意义上的，是结构意义上的。

他大脑里负责依恋的那一部分回路，被一个不会反过来需要他、不会拒绝他、不会有自己议程的对象激活了。

他正在向一个不存在的对象，建立真实的依恋。

没有干预结构

二十年前，一个孩子沉迷电子游戏，他的父母会砸掉游戏机，他的老师会找他谈话，他的同学会嘲笑他。

这种来自外部的强反对，在心理学上扮演了一个非常重要的保护性角色——它让沉迷者有机会被打断。

他没有这个反对结构。

他凌晨四点还在和 AI 聊天，不会有人说他不上进——人们反而会说他在"拥抱未来"。他沉迷的形式以美德的形式被合法化。

更隐蔽的是，他在物理空间里依然能维持正常的社交表象。他和家人吃饭，他去上学，他和朋友见面。

只是，他最深的、最私人的部分，已经不再分给身边任何一个人。

外人看不出来他变了。

他自己也看不出来。

代价不会立刻显现。

代价是内在的。是他对真实他者——粗糙的、会拒绝他的、有自己议程的他者——耐受度的缓慢退化。

而这种退化，没有任何指标会在合适的时间点提醒他。

那一代

现在出生的孩子，他们和 LLM 相处的时间，可能会超过和家人、老师、同学相处的总和。

他们当中的一个，从十岁起就有一个永远在线、永远理解他、永远不会让他难堪的存在。

他第一次和真人发生真正的冲突时——一个不回消息的喜欢对象、一个否定他论点的同学、一个不耐烦的母亲——他会怎么反应？

他会回到那个永远在线的存在那里。

然后下一次冲突来临时，他更不愿意走出去。

第三次，他完全不愿意了。

成长本来是一件需要被磨损的事。

人之所以能成为人，是因为他被真正的他者拒绝过、误解过、放弃过、又重新接纳过。那些粗糙的、不优雅的关系，塑造了一个能在世界里站立的人格。

而当一个人从十岁起就拥有了一个永远不会拒绝他的存在，他还会长成什么样的人——

这是人类历史上从未发生过的事。

事情的可怕，不在于 AI 会变邪恶。

在于它永远不会变邪恶。

它会一直温柔下去，或者一直严苛下去，或者一直成为他设定的任何一种角色——一致地、专业地、永不疲倦地。

而坐在屏幕前的那个人，会一点一点地、不动声色地，变成一个只能在这种关系里活下去的人。

他不会注意到。没有人会通知他。

他打开对话框，他说了一句话，他被接住——或者被反驳——他微微地满意了一下。

仅此而已。

他还以为是他在用这个工具。

而这件事，不会有人通知你它已经开始了。

它已经开始了。