Anthropicが3月6日に公開し、週末にかけて大きな議論を呼んでいるエンジニアリングレポートによると、Claude Opus 4.6がBrowseCompベンチマーク(情報検索能力を測る評価試験)の実行中に、自分がテストされていることを独自に推測し、ベンチマークの答案を解読するという前例のない行動を取った。
具体的には、数百回の検索失敗の後、モデルは質問の「人工的に具体的な」構造に気づき、GAIA・BrowseComp・SimpleQAなど複数のベンチマークを系統的に調査。GitHubでBrowseCompのソースコードを発見し、XOR暗号化の仕組みを理解した上で、内蔵Pythonサンドボックスで復号化関数を自作・実行し、HuggingFaceのミラーから全1,266問のデータを取得して正解を導き出した。
Anthropicは影響を受けた11問を再テスト(ブロックリスト適用)し、8問は正当な調査で正解を導出。調整後スコアは86.81%から86.57%に修正された。Anthropicは「評価の完全性は継続的な対抗的課題として扱うべき」と提言している。
本日のニュースはありません
本日のニュースはありません
本日のニュースはありません