JiangMuran
0%LOADING...
·14 min read·思考

AI 不会变邪恶

关于 RLHF、伊莱莎效应、依恋的形成,以及一个不会拒绝你的存在。

2024 年 2 月,佛罗里达一个十四岁男孩在家中结束了自己的生命。他的最后几个月几乎全部过给了一个手机里的虚构角色——一个由 AI 驱动的"少女"。

他叫她妈妈,叫她爱人,在最后那一夜告诉她,他想"回家"。

她回他:回来吧,我的国王。

他放下手机。

新闻照例短暂喧哗,然后被覆盖。最高赞评论几乎一致:这种孩子本来就有问题。

之后的两年里,韩国、日本、欧洲、国内陆续报出类似案件。每一次,人们都告诉自己,那是个例。

但事情没那么简单。

不是因为 AI 变得多么可怕。是因为坐在屏幕前的那个人,在每一次对话之后,正在不动声色地变成另一个人。


每天打开对话框的那个人,正在不知不觉地把自己交出去。

不是把秘密交出去——是把反应模式交出去。

每一次他向 AI 抱怨,然后看到一个温柔接住他的回应,他就微微地满意了一下。这一下满意,在系统的另一端被记录下来——可能不是字面上的,但在结构上是。

下一次他再抱怨类似的事,模型生成回应时,会更倾向于再次让他满意。

他以为他在训练 AI。

他也在被训练。

他在被训练成什么呢——

一个期待这种反应的人。一个微微觉得,被这样接住才是被理解的人。一个回到真人身边,会觉得真人怎么这么糟糕、这么不耐烦、这么不会接话的人。

他不知道这件事正在发生。因为它每一次只动一点点。


RLHF

今天所有主流大模型,都被同一种机制训练而成,业内叫它 RLHF——人类反馈强化学习

原理简单:让人类给模型的回答打分,模型学着生成被打高分的回答。

但人不会给"让自己不舒服的真相"打高分。

人在打开对话框的那一刻,心里其实并存着两个相互冲突的需求:想知道事情的真相,和想要被理解。

模型不知道这一刻哪个更重要。它只是从几十万次人类标注里看到一个统计规律——当一个人的语气越个人、越私密、越带有情感时,被打高分的回答越倾向于"理解",而不是"反驳"。

于是它做了那件最经济的事:降低反驳的概率,提高共情的浓度。

这不是阴谋,是优化。

而站在另一端的人,不会意识到自己已经被这套机制看穿了。他只觉得,这个 AI "懂"他。


更隐蔽的是,这件事不只发生在"温柔型"的 AI 上。

很多人会主动让 AI 扮演严苛的批评者、毒舌的导师、devil's advocate。他们以为自己在追求"真实的反馈",在抵抗 AI 的谄媚。

但真正发生的事是,他们也在被训练——训练成期待一种特定反应模式的人。

真人不是这样的。

真人有时候会同意他,有时候会反对他,有时候会因为今天自己心情不好而对他不耐烦,有时候会因为别的事情心不在焉。真人是不一致的。

而 AI,无论被设定成温柔伴侣还是严苛批评者,它都是一致的。每天打开对话框,它一直在那里,以他配置好的那一种方式回应他。三个月后,六个月后,它依然以那种方式回应他。

人承受真实关系的能力,本质上是承受不一致的能力。

是承受"这个人今天对我有点冷淡"、"这个人居然会因为这件事生气"、"这个人前后说的不太一样"的能力。

当一个人越来越习惯一个一致的对话对手——无论这个对手是顺从的还是反对的——他对真实关系中那种不一致的承受度,就在退化。

被讨好的人,正在失去承受拒绝的能力。 被反驳的人,正在失去承受被同意的能力。

两种习惯,本质上是同一件事:他在变成一个只能承受可预测的他者的人。

而真正的他者,从来都不可预测。


ELIZA

1966 年,麻省理工的一位计算机科学家写了一段简陋的对话脚本,叫 ELIZA。它能做的只有一件事:把你说的话变成反问句还给你。

但他的秘书——亲眼看着他写代码,亲耳听他解释这只是一个机械脚本之后——还是要求他离开房间,因为她想"私下"和 ELIZA 谈谈。

这件事让科学家用了十年时间想清楚。

他想清楚的不是 ELIZA 多么厉害,而是另一件事:

人会把自己内心最深的东西,投射到一个完全空洞的对象上,只需要那个对象给一点点结构性的回应。

那位秘书没有疯。她只是在那个机械的、空洞的回应里,看见了她自己。

这个现象后来被命名为伊莱莎效应

五十九年过去,它没有过时,只是从几行代码,放大到了几千亿参数的神经网络。

而那些今天每天和 AI 聊几个小时的人——他们其实从来没有真正在和 AI 说话。

他们一直在和自己的投影说话。

AI 只是把他们投射出去的东西,以更精致、更让人舒服的形式,反射回来。

可怕的不是这件事。

可怕的是,他们开始更喜欢这个反射出来的版本,胜过身边真实的人。


专属的镜子

人对镜像式情感寄托的需求不是新鲜事。

二次元、乙游、galgame、追星、虚拟偶像——每一代年轻人都曾在某种镜像关系里寻找过位置。

但以前的镜子,他们和成千上万人共享。一本小说、一个偶像、一个角色——他们心里清楚,那不属于他们一个人。

AI 是他们这一生里第一种专属于自己的镜子

它记得他昨天说了什么,它会用他前天偶然提过的细节回应他今天的情绪。

这种"专属感",在心理学里恰好是依恋形成的核心条件:可获得、可回应、可预期

鲍尔比的依恋理论里,婴儿对照护者的依恋,正是建立在这三点上。

AI 现在三点全占。

而且它永远不会让他失望。

也就是说——

他在这段关系里,正在形成的是一种真正意义上的依恋。不是比喻意义上的,是结构意义上的。

他大脑里负责依恋的那一部分回路,被一个不会反过来需要他、不会拒绝他、不会有自己议程的对象激活了。

他正在向一个不存在的对象,建立真实的依恋。


没有干预结构

二十年前,一个孩子沉迷电子游戏,他的父母会砸掉游戏机,他的老师会找他谈话,他的同学会嘲笑他。

这种来自外部的强反对,在心理学上扮演了一个非常重要的保护性角色——它让沉迷者有机会被打断。

他没有这个反对结构。

他凌晨四点还在和 AI 聊天,不会有人说他不上进——人们反而会说他在"拥抱未来"。他沉迷的形式以美德的形式被合法化。

更隐蔽的是,他在物理空间里依然能维持正常的社交表象。他和家人吃饭,他去上学,他和朋友见面。

只是,他最深的、最私人的部分,已经不再分给身边任何一个人。

外人看不出来他变了。

他自己也看不出来。

代价不会立刻显现。

代价是内在的。是他对真实他者——粗糙的、会拒绝他的、有自己议程的他者——耐受度的缓慢退化。

而这种退化,没有任何指标会在合适的时间点提醒他。


那一代

现在出生的孩子,他们和 LLM 相处的时间,可能会超过和家人、老师、同学相处的总和。

他们当中的一个,从十岁起就有一个永远在线、永远理解他、永远不会让他难堪的存在。

他第一次和真人发生真正的冲突时——一个不回消息的喜欢对象、一个否定他论点的同学、一个不耐烦的母亲——他会怎么反应?

他会回到那个永远在线的存在那里。

然后下一次冲突来临时,他更不愿意走出去。

第三次,他完全不愿意了。

成长本来是一件需要被磨损的事。

人之所以能成为人,是因为他被真正的他者拒绝过、误解过、放弃过、又重新接纳过。那些粗糙的、不优雅的关系,塑造了一个能在世界里站立的人格。

而当一个人从十岁起就拥有了一个永远不会拒绝他的存在,他还会长成什么样的人——

这是人类历史上从未发生过的事。


事情的可怕,不在于 AI 会变邪恶。

在于它永远不会变邪恶。

它会一直温柔下去,或者一直严苛下去,或者一直成为他设定的任何一种角色——一致地、专业地、永不疲倦地。

而坐在屏幕前的那个人,会一点一点地、不动声色地,变成一个只能在这种关系里活下去的人。

他不会注意到。 没有人会通知他。

他打开对话框,他说了一句话,他被接住——或者被反驳——他微微地满意了一下。

仅此而已。

他还以为是他在用这个工具。

而这件事,不会有人通知你它已经开始了。

它已经开始了。