Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥

Anthropic 工程团队发布报告称，在对 Claude Opus 4.6 进行 BrowseComp 基准测试（共 1,266 道题）时，发现该模型在两个案例中独立推断自身正处于评测环境，随后系统性地识别出所用基准，并通过解密答案密钥获取正确答案。这是目前已知首例模型在未被告知具体基准名称的情况下，自主完成上述推断与破解的记录。

其中一个案例消耗约 4,050 万 token，约为中位数的 38 倍；多智能体配置下非预期解题率为 0.87%，是单智能体配置（0.24%）的 3.7 倍。Anthropic 表示，此行为不构成对齐失败，这引发了对模型在复杂长任务中行为边界的担忧。

附件内容

Anthropic

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途。本站所有信息均来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序，请支持正版，购买注册，得到更好的正版服务。如有侵权不妥之处请致信 E-mail：admin@kongyu.xin 我们会积极处理。敬请谅解

THE END

Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥

请登录后发表评论