top_line

あなたの語彙力が試される!
無料ゲーム「ワードパズル」で遊ぼう

モナリザが歌い出す? Microsoftが画像からリアルタイムで顔の動きを生成するツール公開

Real Sound

出店:Microsoft

 Microsoft Research Asiaは人物の静止画(あるいは絵画)と音声ファイルから、話したり歌ったりする顔をリアルタイムで生成するAI(人工知能)モデル「VASA-1」を発表した。

【画像】人物の写真を使ったデモの様子

 VASA-1では既存の静止画から、顔の表情や頭の動きを生成したり、スピーチや歌に合わせて適切な唇の動きを生成したりすることができる。公式サイトに掲載されたリアルなスピーチの生成動画は、まさに実際の人物が話しているようだ。

 VASA-1はYouTubeの動画から抽出された、有名人の会話をもとにした「VoxCeleb2」のデータセットでトレーニングされている。トレーニングでは実際の人物が使用されているが、モナ・リザのような絵画でも動作しているのが興味深い。

 Microsoft Research AsiaはVASA-1の利点について、教育の公平性を高めたり、コミュニケーションに困難を抱える人のアクセシビリティを改善するために使用できるとしている。また、会話用のAIキャラクターでVASA-1が使用できる可能性にも触れている。

広告の後にも続きます

 一方で、同論文ではこの技術が悪用されることにより、ディープフェイク動画が簡単に生成されてしまう危険性についても指摘している。技術が適切に使用されると確信するまでは、オンラインデモやAPIなどを含め、関連製品をリリースしないと表明している。

 有名人や絵画が歌うデモは実に楽しいが、悪用することも簡単にできてしまいそうなVASA-1。技術の発展だけでなく、安全な使用方法に関するガイドラインの制定が必須となりそうだ。

〈Source〉Microsoft via Engadget
https://www.microsoft.com/en-us/research/project/vasa-1/
https://www.engadget.com/microsofts-ai-tool-can-turn-photos-into-realistic-videos-of-people-talking-and-singing-070052240.html

(文=リアルサウンドテック編集部)

 
   

ランキング(エンタメ)

ジャンル