【要点】
・Google DeepMindが、動的な4Dシーン(3D空間+時間)をリアルタイムで再構成・追跡するAIモデル「D4RT」を発表した。
・D4RTは、単一の2D動画入力から、物体の「形状(ジオメトリ)」と「動き(モーション)」を同時に推定する統合型モデルである。
・Transformerベースのエンコーダ・デコーダ構造を採用し、従来は別々の処理が必要だった「深度推定」や「カメラ姿勢推定」を単一プロセスで実行する。
・処理速度が劇的に向上しており、1分間の動画をTPU(Tensor Processing Unit)1基で処理した場合、従来手法で約10分かかるところを約5秒で完了する。
・ベンチマーク評価(MPI Sintel等)において、3D点追跡や新規視点画像生成などのタスクで既存の最先端手法(SOTA)を上回る精度を達成した。
・この技術は、ロボットの自律移動や操作、およびAR(拡張現実)デバイスにおける環境認識能力を飛躍的に高める可能性がある。
・同社は研究成果を技術レポートとして公開し、動画からの4D世界理解に向けた新たなベースラインを提示した。
【編集部コメント】
D4RTは、動画から「空間+時間」を一体で扱う環境理解を高速化する研究として位置付けられる。複数モデルの組み合わせに依存しがちな処理を単一モデルで扱う設計は、実装の複雑さを抑える方向性として整理できる。今後は、公開された手法の追試や、実運用条件での頑健性検証が進むかが焦点となる。
【出典情報】
公式リリース
Google DeepMind: D4RT: Teaching AI to see the world in four dimensions
D4RT: Teaching AI to see the world in four dimensions
GitHub (D4RT): D4RT: Unified, Fast 4D Scene Reconstruction & Tracking
D4RT: Unified, Fast 4D Scene Reconstruction & Tracking
参照情報(報道)
GIGAZINE: Google D4RT 4D scene AI
GIGAZINE
THE{R}IFT: Google DeepMind launches D4RT for real-time 4D scene reconstruction and tracking
THE{R}IFT