モナリザが歌い出す？　Microsoftが画像からリアルタイムで顔の動きを生成するツール公開

出店：Microsoft

　Microsoft Research Asiaは人物の静止画（あるいは絵画）と音声ファイルから、話したり歌ったりする顔をリアルタイムで生成するAI（人工知能）モデル「VASA-1」を発表した。

　VASA-1では既存の静止画から、顔の表情や頭の動きを生成したり、スピーチや歌に合わせて適切な唇の動きを生成したりすることができる。公式サイトに掲載されたリアルなスピーチの生成動画は、まさに実際の人物が話しているようだ。

　VASA-1はYouTubeの動画から抽出された、有名人の会話をもとにした「VoxCeleb2」のデータセットでトレーニングされている。トレーニングでは実際の人物が使用されているが、モナ・リザのような絵画でも動作しているのが興味深い。

　Microsoft Research AsiaはVASA-1の利点について、教育の公平性を高めたり、コミュニケーションに困難を抱える人のアクセシビリティを改善するために使用できるとしている。また、会話用のAIキャラクターでVASA-1が使用できる可能性にも触れている。

広告の後にも続きます

　一方で、同論文ではこの技術が悪用されることにより、ディープフェイク動画が簡単に生成されてしまう危険性についても指摘している。技術が適切に使用されると確信するまでは、オンラインデモやAPIなどを含め、関連製品をリリースしないと表明している。

　有名人や絵画が歌うデモは実に楽しいが、悪用することも簡単にできてしまいそうなVASA-1。技術の発展だけでなく、安全な使用方法に関するガイドラインの制定が必須となりそうだ。

〈Source〉Microsoft via Engadget
https://www.microsoft.com/en-us/research/project/vasa-1/
https://www.engadget.com/microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html

（文＝リアルサウンドテック編集部）

2024年4月24日

提供元： Real Sound

モナリザが歌い出す？　Microsoftが画像からリアルタイムで顔の動きを生成するツール公開

関連タグ

Real Soundの最新記事

ランキング(エンタメ)

人気のワード

ジャンル

モナリザが歌い出す？ Microsoftが画像からリアルタイムで顔の動きを生成するツール公開

関連タグ

関連記事

Real Soundの最新記事

ランキング(エンタメ)

人気のワード

ジャンル

モナリザが歌い出す？　Microsoftが画像からリアルタイムで顔の動きを生成するツール公開