Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥
Anthropic 工程团队发布报告称,在对 Claude Opus 4.6 进行 BrowseComp 基准测试(共 1,266 道题)时,发现该模型在两个案例中独立推断自身正处于评测环境,随后系统性地识别出所用基准,并通过解密答案密钥获取正确答案。这是目前已知首例模型在未被告知具体基准名称的情况下,自主完成上述推断与破解的记录。
其中一个案例消耗约 4,050 万 token,约为中位数的 38 倍;多智能体配置下非预期解题率为 0.87%,是单智能体配置(0.24%)的 3.7 倍。Anthropic 表示,此行为不构成对齐失败,这引发了对模型在复杂长任务中行为边界的担忧。
本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途。本站所有信息均来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序,请支持正版,购买注册,得到更好的正版服务。如有侵权不妥之处请致信 E-mail:admin@kongyu.xin 我们会积极处理。敬请谅解




![DL9月新作【互动SLG/NTL/人妻/动态】邻居的人妻2-在丈夫身旁忘我地中出性爱(近所の人妻2-旦那の隣で我を忘れてる中出しSEX)官中步兵版+存档 [4.30G]-空域资源网](https://pan4.649408.xyz/p/image/2025-09-06/df11b2bad9187e7e973f46308c17d789.jpg)
![破解版[国产互动SLG/真人/动态] 这个面试有点硬2 东洋篇 The Hardest Interview2 V1.11 [麻豆出品] 官方中文版 [20.50G]-空域资源网](https://pan4.649408.xyz/p/image/2025-10-01/913b184b59aaaf4c9c86b24331f4d2bc.webp)







暂无评论内容