Francois Cholletが率いるARC Prizeが、初の完全インタラクティブベンチマーク「ARC-AGI-3」を公開した。従来の静的パズル形式を廃止し、数百のゲーム的環境でルール発見・目標設定・問題解決を求める形式に刷新。AIエージェントは説明書やルールなしに環境を自律探索し、仕組みを理解し、勝利条件を発見する必要がある。
結果は衝撃的だった。GPT-5.4は0.26%、Claude Opus 4.6は0.25%、Gemini 3.1 Proが最高で0.37%。いずれも1%に届かない。一方で人間の正答率は100%。興味深いことに、CNN+強化学習のアプローチが12.58%を達成し、LLMでないアーキテクチャが大幅に上回った。さらにSymbolicaのAgenticaフレームワークは初日で36%を記録した。
同時にGPT-5.4がUSAMO(米国数学オリンピック)で95%を記録し、Jensen HuangがLex Fridmanに「AGIは達成された」と発言したことと対照的で、「特化タスクの卓越」と「汎用知能」の乖離が鮮明になった週末だった。
本日のニュースはありません
本日のニュースはありません