AI写真アニメーションの仕組み:動く写真の背後にある技術
AI写真アニメーションを動かす技術への深いダイブ——GANから拡散モデル、Seedance 2.0まで。
手品から革命的な技術へ
静止写真を動かすというアイデアは、思っている以上に古いものです。ハリー・ポッターの動く肖像画は、AIがそれを実現する前から想像力を魅了していました。しかし、実際の技術はわずか6年で驚くべき変革を遂げました——粗い顔のワープからフォトリアリスティックなビデオ生成へ。
この技術がどのように機能するかを理解するのに機械学習の博士号は必要ありません。基本的な概念は直感的であり、それを知ることで、なぜあるツールが他のツールよりも劇的に優れた結果を生み出すかを理解するのに役立ちます。
AI写真アニメーションの進化
First Order Motion Model(2019年)
AI写真アニメーションの現代は、2019年にトレント大学の研究者によって発表されたFirst Order Motion Modelで始まりました。このアプローチは、ソースの顔でキーポイントを検出し、パイロットビデオからソース画像に動きを転送することで機能しました。
敵対的生成ネットワーク(2020-2022)
次の大きな進歩はGAN(Generative Adversarial Networks)から来ました。これはMyHeritageのDeep Nostalgiaやその時代の類似ツールの背後にある技術です。
GANは2つのニューラルネットワークが競争することで構成されます。ジェネレーターは合成画像を作成し、ディスクリミネーターはそれらを本物と区別しようとします。
拡散モデル(2023-現在)
最も重要な飛躍は拡散モデルから来ました。これは画像とビデオ生成の最先端としてGANを大きく置き換えました。
拡散モデルは根本的に異なる原理で動作します。敵対的な競争を通じて学習する代わりに、ノイズを徐々に追加する過程を逆転させることを学習します。
Seedance 2.0の仕組み
Incarnを動かすビデオ拡散モデルであるSeedance 2.0は、この技術の現在の最前線を代表しています。写真をアップロードするとき、内部で何が起こるか説明します。
画像理解
モデルはまず、ビジョンエンコーダーを使用してソース写真を分析します。このステップは、被写体についての詳細な情報を抽出します:顔の構造、表情、頭の姿勢、照明の方向、画像の構成、前景と背景の要素間の関係。
動き計画
画像の理解に基づいて、モデルは特定の被写体とポーズに自然な動きのシーケンスを計画します。
ここがSeedance 2.0が古いツールと最も劇的に異なる点です。事前定義された動きのライブラリはありません。モデルは、実際の人々が類似のポーズと表情でどのように動くかについて学んだことに基づいて、各画像にユニークな動き計画を生成します。
拡散を通じたフレーム生成
モデルは次に、反復的な拡散プロセスを通じてビデオフレームを生成します。ソース画像で条件付けられた構造化されたノイズから始まり、各フレームを複数のステップで改良します——通常20-50のデノイジングステップ——クリーンで詳細なビデオフレームが現れるまで。
何が良いアニメーションを作るか
技術を理解することで、なぜある写真が他よりもうまくアニメーション化されるかを説明します。
顔のランドマークの明確さ
自然な動きを生成するモデルの能力は、ソースの顔を正確に理解することに大きく依存します。顔のランドマーク(目、鼻、口、顎)がはっきり見える写真は、モデルに最良の基盤を与えます。
ポーズの妥当性
アニメーションは被写体のポーズに対して物理的に妥当でなければなりません。振り返る途中で撮影された人物は、カメラに直接向き合っている人物とは異なる次の妥当な動きを持ちます。
時間的一貫性
良いアニメーションの特徴は時間的一貫性です——各フレームが前のフレームから自然に流れる感覚。悪い時間的一貫性はぎくしゃく、ちらつき、または動きの不自然なジャンプとして現れます。
自分で試してみる
技術を理解する最良の方法は、それが実際に動くのを見ることです。Incarnでは、アカウントを作成せずに無料で写真をアニメーション化できます——任意のポートレートをアップロードして、1分以内に結果を確認できます。
静止写真と動くポートレートの間のギャップは、単に技術的なものではありません。感情的なものです。そしてそれが、この技術を理解する価値がある理由です。