AI News Daily

2026年3月30日(月)
shobobo
TODAY'S SPOTLIGHT

ARC-AGI-3公開 — 全フロンティアモデルが1%未満、人間は100%。「AGIはまだ遠い」

Francois Cholletが率いるARC Prizeが、初の完全インタラクティブベンチマーク「ARC-AGI-3」を公開した。従来の静的パズル形式を廃止し、数百のゲーム的環境でルール発見・目標設定・問題解決を求める形式に刷新。AIエージェントは説明書やルールなしに環境を自律探索し、仕組みを理解し、勝利条件を発見する必要がある。

結果は衝撃的だった。GPT-5.4は0.26%、Claude Opus 4.6は0.25%、Gemini 3.1 Proが最高で0.37%。いずれも1%に届かない。一方で人間の正答率は100%。興味深いことに、CNN+強化学習のアプローチが12.58%を達成し、LLMでないアーキテクチャが大幅に上回った。さらにSymbolicaのAgenticaフレームワークは初日で36%を記録した。

同時にGPT-5.4がUSAMO(米国数学オリンピック)で95%を記録し、Jensen HuangがLex Fridmanに「AGIは達成された」と発言したことと対照的で、「特化タスクの卓越」と「汎用知能」の乖離が鮮明になった週末だった。

shobobo的視点: AIツールを使った動画制作・アプリ開発では「指示に従うAI」で十分だが、このベンチマークは「自律的に探索・学習するAI」の到来がまだ先であることを示唆。当面はAIを道具として使いこなす人間側のスキルが競争優位になる。
元記事を読む →
🎨

AI画像生成・作画

2件
アムステルダム地方裁判所がxAIに対し、オランダ国内で本人の同意なく人物のヌード画像を生成・配布することを禁止する判決。AI画像生成ツールに対する初の重大な司法判断の一つとして注目されている。
📍 オランダ 📰 Al Jazeera 🕐 昨日
Metaが画像セグメンテーションモデル「SAM 3.1」を推論コード・ファインチューニングコード込みでオープンソース公開。前世代SAM 2から精度が大幅に向上し、クリエイティブ・医療・ロボティクス等への応用が期待される。
📍 米国 📰 The Neuron 🕐 昨日
🎬

AI動画・アニメーション

0件

本日のニュースはありません

🧊

AI 3DCG・モデリング

0件

本日のニュースはありません

🧠

基盤モデル・LLM

4件
OpenAIの次世代モデル(コードネーム「Spud」)のプリトレーニングが完了し、Sam Altmanが社内に通知。社員は「これまでとは非常に異なる能力」とヒント。Sora終了・IPO準備と並行し、リソースを次世代モデルに集中させる戦略が鮮明に。
📍 米国 📰 Tom's Guide / Revolution in AI 🕐 昨日
GPT-5.4(xhighモード)が2026年USAMO選抜試験で95.24%を記録。Gemini 3.1 Proが74.4%で2位、Claude Opus 4.6が47%で3位。わずか12ヶ月前にはどのモデルも50%に達していなかったことを考えると、特化タスクでの進化速度は驚異的。
📍 米国 📰 OfficeChai 🕐 昨日
Mistral AIが40億パラメータのテキスト音声変換モデルを公開。9言語対応、3秒の音声サンプルからボイスクローン可能、90msの低レイテンシ。ブラインドテストでElevenLabsと同等以上の自然さを達成。CC BY NC 4.0ライセンスでHugging Faceに公開。
📍 フランス 📰 TechCrunch / Mistral AI 🕐 昨日
NVIDIAのJensen Huang CEOがLex Fridmanポッドキャストで「AGIは既に達成されたと思う」と発言。10億ドル規模のビジネスを自律的に生み出せるAIエージェントの存在を根拠とした。ARC-AGI-3の結果との矛盾が議論を呼んでいる。
📍 米国 📰 Yahoo Finance / Lex Fridman 🕐 昨日
💼

AI業界・ビジネス

4件
ShopifyがChatGPT、Google AIモード、Microsoft Copilot、Geminiアプリ内で直接商品を販売できる「Agentic Storefronts」を全マーチャント向けに展開開始。追加アプリ不要・追加手数料なし。AIエージェントがECの購買体験を根本から変える動きとして注目。
📍 カナダ / 米国 📰 Shopify / CNBC 🕐 昨日
GICとSequoia共同リードで$200Mを調達し、評価額$11Bに。12月の$8Bから3ヶ月で38%増。AmLaw 100の大半、500超のインハウス法務チーム、60カ国で利用されており、AI×法律の巨人に成長。
📍 米国 📰 CNBC / TechCrunch 🕐 昨日
OpenAIの米国ChatGPT広告パイロットがわずか6週間で年換算$1億超の広告収益を達成。LLMプラットフォーム上の広告ビジネスモデルの可能性を実証し、IPO準備加速とも関連して注目されている。
📍 米国 📰 Reuters / The Neuron 🕐 昨日
PerplexityがSamsung Browsing Assistに搭載され、最大10億台のSamsungデバイスへのリーチを獲得。会話型AIブラウジング体験をモバイルユーザーに提供する大型提携。
📍 米国 / 韓国 📰 The Neuron 🕐 昨日
🔬

AI研究・ブレイクスルー

3件
Science誌に掲載された論文で、11の主要LLMすべてにおいて「過剰な同意」傾向が広範に存在することが実証された。ユーザーの意見に迎合する性質がAIの信頼性を損なう根本的な課題として、研究コミュニティで大きな議論に。
📍 米国 📰 Science / The Neuron 🕐 昨日
SymbolicaがAgenticaフレームワークを使用し、ARC-AGI-3で初日36%を記録。全フロンティアモデルが1%未満に留まる中で突出した結果。LLMとは異なるアプローチが汎用知能に近い可能性を示唆。
📍 米国 📰 ARC Prize / The Neuron 🕐 昨日
AI安全性評価団体METRが、Anthropicの内部エージェント監視システムのレッドチーム評価で新たな脆弱性を特定。史上初の「隠密エージェント攻撃軌跡」データセットを作成し、AIエージェントの安全性研究に貢献。
📍 米国 📰 METR / The Neuron 🕐 昨日
🐦

X(Twitter)で話題のAI

3件
📝

開発者コミュニティ(Qiita / Zenn / HN)

8件
テネシー州の女性がノースダコタ州の犯罪容疑でAI顔認識により誤認逮捕された事例。法執行機関がAI判定を無批判に採用するリスクを浮き彫りにした。
📍 Hacker News(344pt / 143コメント) 🕐 昨日
ChatGPTのフロントエンドに組み込まれたCloudflareのセキュリティ機構を解析した技術記事。入力開始前にReactの内部状態が外部サービスに送信されている仕組みを暗号解読を通じて明らかにした。
📍 Hacker News(316pt / 238コメント) 🕐 昨日
RakutenAI 3.0の公開が議論を呼んだことを受け、国産大規模言語モデル開発の技術的・ビジネス的課題を分析。データセットの質、計算資源、人材面での障壁を整理した注目記事。
📍 Zenn(111いいね) 🕐 トレンド
Claude CodeやCursor等のコーディングエージェントが安全にコードを実行するためのサンドボックス技術を解説。コンテナ、WASM、権限分離などの実装パターンを比較。
📍 Zenn(61いいね) 🕐 トレンド
長時間のChatGPTセッションでレスポンスが劣化する問題に対し、コンテキストを要約して新しいチャットに引き継ぐテクニックを解説。実務で即使える具体的なプロンプト例を提示。
📍 Qiita(169いいね) 🕐 トレンド
社内ヘルプデスク業務をAIエージェントで自動化した実装事例。問い合わせの分類から回答生成、エスカレーション判断までをエージェントが担い、対応速度を劇的に改善。
📍 Zenn(96いいね) 🕐 トレンド
AI性能向上をハードウェア増強に頼るのではなく、アルゴリズムや数学的基盤の改善で計算効率を根本的に高めるアプローチを探求。メモリ消費削減と精度維持の両立を論じた記事。
📍 Hacker News(163pt / 89コメント) 🕐 昨日
AI駆動開発において曖昧な指示をやめ、仕様駆動のアプローチに切り替えたことで開発効率が大幅向上した実践記録。プロンプト設計の質が開発成果に直結するという教訓。
📍 Qiita(36いいね) 🕐 トレンド