AIビデオ生成の仕組み（わかりやすく解説）

1962年の祖母の静止画をアップロードすると、数秒後に彼女が動き出します——目が動き、わずかな微笑みが現れ、表情が生命の微妙な重みを帯びています。これはほとんど不可能に思えます。ソフトウェアはどのようにして平らな静止画像を見て、まるで生きているかのようなものを生成できるのでしょうか？

基本：AIが画像について「知っている」こと

写真から動画を生成する現代のAIシステムは、膨大なデータセットで訓練されています。数億の画像と動画クリップです。訓練中、モデルは統計的関係を学習します：異なる角度での顔の見え方、風に揺れる髪の動き、微妙な表情の変化時の目の自然な動き。

AIは特定の画像を記憶しません。パターンを学習します。人間のように理解するわけではありませんが、多くの例を見たことで、顔が動いたらどう見えるかを驚くほど正確に予測できます。

現在の最先端AI画像・動画生成システムの多くは、拡散モデルと呼ばれるものに基づいています。

訓練中、モデルは2つの方向のプロセスを学びます。まず、ランダムノイズを追加して画像が徐々に破壊される様子を見ます。次に、そのプロセスを逆転させる方法を学びます：純粋なノイズから始めて、一貫した画像を再構築します。

単一の説得力のある画像を生成するのは難しいです。自然な動きとして連続する30フレームを生成するのは、劇的に難しくなります。

各フレームは前後のフレームと一貫している必要があります。モデルが各フレームを独立して生成すると、ちらつき、歪み、壊れたような動きになります。

Incarnで使用されているSeedance 2.0のようなモデルは、フォトリアリスティックな人間のアニメーションのために特別に開発・最適化されています。古い写真、非標準的な照明、わずかな角度の顔など、単純なモデルでは難しい入力を処理できます。

AIビデオ生成は驚くべきものですが、魔法ではありません。現在のモデルは以下で苦労することがあります：

AI動画生成は過去3年間で、ほぼ他のどの技術よりも速く改善されています。2022年に研究室と何週間もの計算が必要だったことが、今では誰でもアクセスできるクラウドインフラで数秒で実行されます。

次世代のモデルは、より難しい入力を処理し、より長い動画を生成し、より多様な動きのタイプをサポートし、生成された動画と本物の映像との間の残りのギャップを埋めていくでしょう。