NVIDIAが、わずか26億パラメータ(2.6B)の軽量な世界モデル「SANA-WM」を公開した。最大の特徴は「1分間・720pの動画を1枚のGPUで生成できる」効率性。Hybrid Linear Attention(線形アテンションとsoftmaxアテンションのハイブリッド)により、長尺・長文脈をメモリ効率よく扱える設計になっている。
蒸留版(distilled variant)はNVFP4量子化を用いることでRTX 5090 1枚に載り、60秒・720pのクリップを約34秒でデノイズできる。学習も約21万本の公開動画クリップ・H100×64枚で15日間と省コストで、従来のオープンソース基盤と比べてスループットは36倍。それでいてクローズドな商用モデルに匹敵する画質を出すという。6自由度(6-DoF)のカメラ制御にも対応し、カメラワークを精密に指定できる。
ライセンスはApache 2.0。商用利用・改変・再配布がロイヤリティなしで認められ、重みはHugging Face、学習・推論コード一式はGitHubで公開されている。Hacker Newsでも322ポイントを集め、当日フロントページ最上位クラスの話題となった。