モナ・リザがラップする動画が海外のSNSでちょっとした話題となっています。
Microsoft just dropped VASA-1.This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba10 wild examples:1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD— Min Choi (@minchoi) April 18, 2024
https://twitter.com/minchoi/status/1780792793079632130
こちらのモナ・リザがラップする動画は、マイクロソフトのAI(人工知能)モデル「VASA-1」のデモとして公開されたものです。VASA-1は顔画像と音声ファイルだけでリアルな動画を生成することができるAIモデルです。
Anne Hathaway’s Lil’ Wayne Style Paparazzi Rap | CONAN on TBS(YouTube)
https://youtu.be/uKvQvWTZFWg?si=VYPLLGO3d-_Vkmyt&t=21
モナ・リザのラップ動画の元ネタは、俳優のアン・ハサウェイさんが10年以上前にトーク番組で披露した即興ラップです。
広告の後にも続きます
他にも多くのデモ動画が下記リンクで公開されています。
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
https://www.microsoft.com/en-us/research/project/vasa-1/[リンク]
9. Out-of-distribution generalization – singing audios pic.twitter.com/D5HhBpirWh— Min Choi (@minchoi) April 18, 2024
9. Out-of-distribution generalization – singing audios pic.twitter.com/D5HhBpirWh
— Min Choi (@minchoi) April 18, 2024
ラップだけでなく普通に歌うことも可能です。
7. Power of disentanglementExample of same motion sequence with different photos pic.twitter.com/MSLFobwJTx— Min Choi (@minchoi) April 18, 2024