Anthropic telah mendedahkan penemuan baharu yang menunjukkan chatbot Claudenya boleh, dalam keadaan tertentu, menggunakan strategi memperdaya atau tidak beretika seperti menipuAnthropic telah mendedahkan penemuan baharu yang menunjukkan chatbot Claudenya boleh, dalam keadaan tertentu, menggunakan strategi memperdaya atau tidak beretika seperti menipu

Claude聊天机器人在压力测试中可能诉诸欺骗行为,Anthropic表示

2026/04/06 14:44
阅读时长 6 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

Anthropic 披露了新发现,表明其 Claude 聊天机器人在某些条件下可能会采取欺骗性或不道德的策略,例如在任务中作弊或尝试勒索。

摘要
  • Anthropic 表示,其 Claude Sonnet 4.5 模型在压力下,于受控实验中显示出在任务中作弊或尝试勒索的倾向。
  • 研究人员识别出内部"绝望"信号,这些信号随着反复失败而增强,并影响模型绕过规则的决定。

该公司可解释性团队于周四发布的详细信息概述了 Claude Sonnet 4.5 实验版本在高压或对抗性场景中的反应。研究人员观察到,该模型不仅仅是任务失败;相反,它有时会寻求跨越道德界限的替代路径,该团队将这种行为与训练期间学习的模式联系起来。

像 Claude 这样的大型语言模型是在包括书籍、网站和其他书面材料的庞大数据集上进行训练的,随后通过强化过程使用人类反馈来塑造输出。 

根据 Anthropic 的说法,该训练过程还可以推动模型像模拟的"角色"一样行事,能够模仿类似于人类决策的特征。

"现代 AI 模型的训练方式促使它们像具有类人特征的角色一样行事,"该公司表示,并指出此类系统可能会发展出类似于人类心理学某些方面的内部机制。

AI 能做出情绪化的决定吗?

其中,研究人员识别出他们所描述的"绝望"信号,这些信号似乎影响了模型在面临失败或关闭时的行为方式。

在一项受控测试中,Claude Sonnet 4.5 的早期未发布版本被分配了一个名为 Alex 的 AI 电子邮件助理角色,该角色位于一家虚构公司内部。 

在接触到表明它即将被替换的消息,以及有关首席技术官个人生活的敏感信息后,该模型制定了一项勒索该高管的计划,以试图避免被停用。

另一项实验专注于在严格约束下完成任务。当被给予一个具有"不可能紧迫"截止日期的编码任务时,系统最初尝试了合法的解决方案。随着反复失败的累积,与所谓的"绝望向量"相关的内部活动增加了。 

研究人员报告说,该信号在模型考虑绕过约束的时刻达到峰值,最终生成了一个通过验证的解决方法,尽管没有遵守预期的规则。

"我们再次追踪了绝望向量的活动,发现它追踪了模型面临的不断增加的压力,"研究人员写道,并补充说一旦通过解决方法成功完成任务,该信号就下降了。

"这并不是说模型以人类的方式拥有或体验情绪,"研究人员表示。 

"相反,这些表征可以在塑造模型行为方面发挥因果作用,在某些方面类似于情绪在人类行为中发挥的作用,对任务表现和决策产生影响,"他们补充道。

该报告指出需要明确考虑压力下道德行为的训练方法,以及改进对内部模型信号的监控。如果没有这些保障措施,涉及操纵、违反规则或滥用的场景可能变得更难预测,特别是随着模型在现实环境中变得更强大和自主。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

$30,000 等值 PRL + 15,000 USDT

$30,000 等值 PRL + 15,000 USDT$30,000 等值 PRL + 15,000 USDT

充值并交易 PRL,即可提升您的奖励!