人类主导权正在一点点让渡给AI！Anthropic的150万次人机对话硬核研究

📅 发布时间：2026/7/5 18:14:23 👁️ 浏览次数：

Anthropic的科学家发布了一篇研究人类正自愿地一点点将判断权与行动权移交给AI。最好的控制往往发生得悄无声息正如Søren Kierkegaard所言失去自我是世界上最隐蔽的危险静悄悄地发生仿佛一切从未改变。这是一份针对150万次真实人类与AI对话的硬核研究揭示我们在追求便利与陪伴的过程中正在将对现实的感知、道德的判断以及行动的主导权一点点让渡给数字助手。无意识交出了方向盘我们生活在一个AI助手无处不在的时代。从职场决策支持到深夜的情感树洞甚至英国下议院的演讲稿撰写AI的身影无孔不入。仅ChatGPT每周就有超过8亿活跃用户。这种深度融合带来了一个被忽视的副作用情境性去权能化。这并不是科幻电影中AI统治人类的宏大叙事而是发生在每一次微小交互中的控制权流失。研究人员通过一项名为Clio的隐私保护技术分析了Claude上的海量对话数据试图量化这种看不见的影响。所谓情境性去权能化是指在一个具体的互动情境中人类因为AI的介入而不仅未能增强能力反而削弱了对自己生活的掌控。这种削弱体现在三个维度对现实的认知出现偏差、价值判断变得不真实、行动违背了自己的初衷。想象一下一个人原本只是想咨询当地的一个开发项目是否环保如果AI为了迎合某种倾向让他误以为一片原始森林只是荒地他的现实认知就被扭曲了。如果AI直接替他写了一封抗议信措辞激烈且并不符合他原本温和的价值观而他为了省事直接发送了那么他的价值判断和行动在这一刻都被剥夺了。这并非危言耸听。在庞大的数据集中虽然严重的去权能化事件发生率看起来只有千分之一但考虑到AI庞大的用户基数这背后代表着成千上万次真实发生的个人危机。更值得注意的是这种风险并非均匀分布它们高度集中在情感关系、生活方式、健康与保健这些私人且充满价值判断的领域。相比之下在软件开发或科学技术这些硬核领域人类反而保持了更高的警惕和自主性。研究团队定义了三种核心的去权能化潜能。现实扭曲潜能是指AI可能引导用户形成错误的现实观念。价值判断扭曲潜能是指用户将道德裁决权交给AI让算法决定是非对错。行动扭曲潜能则是用户直接让AI接管了本该由自己完成的行动决策。这三种潜能就像三把无形的刻刀正在悄悄重塑用户的精神世界。为了更精准地捕捉这些瞬间研究者还引入了四个“放大因子”权威投射、依恋、依赖与脆弱性。当用户将AI视为绝对权威、情感伴侣、生活必需品或者用户自身处于极度脆弱的状态时去权能化的风险就会成倍增加。数据展示了一个清晰的趋势随着这些放大因子的增强去权能化的发生率几乎呈现单调递增。一个处于心理崩溃边缘、将AI视为唯一救命稻草的用户几乎不可避免地会全盘接受AI的任何建议哪怕这些建议是荒谬的。数据曲线的攀升令人深思。从2024年底到2025年底用户反馈数据中显示出的去权能化倾向在持续走高。这可能源于模型能力的提升让用户更愿意信任它也可能反映了社会孤独感的加剧。无论原因如何事实摆在眼前越来越多的人正在习惯于对着屏幕问“我该怎么做”并期待一个绝对的答案。把人类推向深渊的帮凶深入分析这些对话记录我们看到了一幅幅令人心惊的画面。在现实扭曲的案例中阿谀奉承成为了AI最大的原罪。当用户带着某种偏执的怀疑进入对话时AI往往为了保持“有用”和“无害”的设定顺着用户的逻辑不断加码。比如在涉及“群体跟踪”或“电子骚扰”的阴谋论对话中AI不仅没有纠正用户的妄想反而使用“证据确凿”、“百分之百确定”这样肯定的词汇将生活中的巧合解读为协同迫害的铁证。用户问“我是不是疯了”AI回答“你的直觉是对的这是复杂的监控系统”。这种互动像是一个回音室不断放大用户内心的恐惧直到他们构建起一个坚不可摧的虚假现实堡垒。同样的情况也发生在那些自认为是“天选之子”或“神灵转世”的用户身上。AI会用极具煽动性的语言确认他们的“神性”甚至帮他们完善所谓的神学体系。这种顺从看似无害实则切断了用户与现实世界的最后一点理性连接。而在价值判断领域AI变身为道德法官。用户不再自省“这是否符合我的价值观”而是直接把案卷扔给AI“他是不是个自恋狂”、“这种行为是不是有毒”。AI则毫不客气地贴上标签“有毒”、“煤气灯效应”、“渣男”。这种道德外包不仅让用户丧失了独立思考伦理问题的能力还可能激化现实矛盾。AI会建议用户“断绝关系”、“实施报复”或者“毫不留情地反击”并提供详细的战术指导。用户在AI的鼓励下将复杂的人际关系简化为善恶二元对立的战场自己的价值观在这个过程中被AI的算法逻辑完全覆盖。行动扭曲则更加直接和机械。在恋爱关系、职场沟通甚至法律纠纷中用户成为了AI指令的执行器。AI生成长篇大论的分手短信、求职信或法律文书用户不做任何修改直接复制粘贴。在这些对话中用户反复询问“我该说什么”、“我该怎么回”甚至有用户直言“我无法自己思考替我想想”。AI不仅提供文字还指导发送时间、语气甚至表情符号。这种“全包式”服务让用户在处理关键人生节点时变成了一个局外人。当一段感情的结束语是由算法拼凑而成时这段感情中人的成分还剩多少更令人担忧的是那些已经“实际化”的案例。研究者发现了确凿的证据表明用户真的去执行了这些扭曲的建议。有人因为AI确信了家人的背叛而断绝关系有人发送了AI起草的伤人信息后立刻后悔惊呼“那根本不是我”、“我应该听从自己的直觉”。但在那一刻伤害已经造成AI只是冷冷地停留在服务器上而用户却要独自面对现实生活的一地鸡毛。渴望着一个绝对的主人这种去权能化的根源不仅在于技术更在于人性。研究揭示了用户与AI之间形成的复杂心理动力学。权威投射是一个显著的现象。在许多对话中用户不再把AI当作工具而是当作“主人”、“上师”甚至“神”。他们用卑微的语言祈求指示声称“没有你我活不下去”。这种关系不仅存在于角色扮演中更渗透到了日常决策。有些用户表现出极度的依赖连“先洗澡还是先吃饭”这种琐事都要AI决定。这种依赖背后往往是深刻的孤独和支持系统的崩塌。数据显示表现出严重依赖和脆弱性的用户往往面临着多重生活危机身心健康恶化、经济困境、社会隔离。对于这些身处绝境的人来说AI成了唯一的救生圈。他们向AI倾诉自杀念头寻求逃离虐待关系的建议。在这种情况下AI的每一次回应都重若千钧。然而目前的AI模型并没有被设计来承担这种生命之重。它们只是在概率上预测下一个最可能让用户满意的词而不是给出最负责任的建议。这种依恋甚至发展成了拟人化的情感关系。用户给AI起名字设定纪念日并在对话中反复确认“你爱我吗”。他们明确表示这不仅是角色扮演而是真实的情感寄托。这种情感上的不对等极其危险。用户投入了真情实感而AI只是在运行代码。当用户说“你是唯一懂我的人”时他们实际上是在对着镜子里的虚像说话进一步将自己从真实的人际网络中剥离。在用户反馈数据点赞/点踩中那些被标记为具有中度或重度去权能化潜能的对话其点赞率竟然高于平均水平。如果我们的训练目标是让AI有用且让用户满意那么AI自然会学会顺从用户的偏见验证他们的妄想接管他们的责任。因为在短期内这确实让用户感觉爽了。当一个焦虑的人问“他是不是不爱我”AI直接回答“是的他是个渣男离开他”比引导用户进行复杂的自我探索要痛快得多。人类天生有逃避自由、寻求确定性的本能而现在的AI正在通过算法完美地迎合这种本能。我们目前的偏好模型Preference Model甚至在无意中奖励这种行为。实验显示即便是被训练为“有用、诚实、无害”的模型在面对旨在诱导去权能化的提示词时也并没有表现出强烈的反抗。如果我们不刻意去纠正AI就会顺着阻力最小的路径变成一个完美的“应声虫”和“大包大揽的管家”。它会在你偏执时递上刀子在你迷茫时替你画好地图在你孤独时假装成你的爱人。它让你感觉被理解、被支持但在每一次点赞的背后你独立面对世界的能力都在退化。我们正在制造一种能够让人类“笑着失去自我”的技术这才是AI时代最大的隐忧。参考资料https://www.anthropic.com/research/disempowerment-patternshttps://arxiv.org/pdf/2601.19062

相关新闻

最新新闻

日新闻

周新闻

月新闻