2024.03.05. 06:00

Egyetlen állóképből elképesztő videót készít a mesterséges intelligencia

Bárki, híres ember, egy ismerősünk, netán Mona Lisa fényképe is megszólalhat, és azt mondja el vagy énekli, amit csak akarunk. Az MI segítségével.

Forrás: EMO

Az Alibaba Intelligens Számítástechnikai Intézetének kutatói kifejlesztettek egy új mesterséges intelligencia rendszert, az EMO-t, ami az Emote Portrait Alive rövidítése. A program egyetlen portréfotóból képes élethű videót készíteni hiteles, kifejező arcmozgásokkal, amelyek szorosan illeszkednek a hangsáv árnyalataihoz.

Érdemes megnézni az alábbi videót, hogy mire képes az EMO:

Először Audrey Hepburn egy fekete-fehér fotójával énekeltetnek el egy dalt,

azután pedig Hepburn beszélni kezd, interjút ad.

Voltak már hasonló próbálkozások, de nem ilyen minőségben: az EMO-val szinte tökéletes a szájmozgás, a mimika.

Ez a rendszer a diffúziós modellként ismert mesterséges intelligencia technikát alkalmazza valósághű szintetikus képek előállítására. A kutatók a modellt egy több mint 250 órányi, „beszélő fejű” videókból álló adathalmazon képezték ki, amelyet beszédekből, filmekből, tévéműsorokból és énekelőadásokból gyűjtöttek össze.

A kifejlesztett EMO közvetlenül a bemeneti hangból állít elő képeket, ellentétben a hagyományos módszerekkel, amelyek 3D arcmodelleken és kontúrszintézisen alapulnak az arcmozgások utánzására. Ez lehetővé teszi természetes hatású képek készítését az énekléssel és beszéddel kapcsolatos finommozdulatok és egyedi szokások rögzítésével.

Egy énekes videó kimenetéhez csak egy fotó és egy tetszőleges hang szükséges.

Nem jelentenek problémát azok a dalok sem, amelyek előadásakor gyorsan, hevesen mozog a száj, mint például a rap esetén.

Lehetőség van társalgó, előadó videók generálására is.

Az EMO jelentősen felülmúlja a korábbi módszereket a videó minőségében, identitásmegőrzésében és kifejezőkészségében: életre keltheti Mona Lisát, egy japán animét, vagy bármilyen grafikát.

Az EMO-val a személyre szabott videótartalom létrehozható tehát csupán egy fényképből és egy hangklipből. Mindazonáltal indokoltak az etikai aggályok az ilyen technológiával való visszaélések miatt, mert az alanyok beleegyezése nélkül elkészíthetőek. A kutatók ezért most azon dolgoznak, hogy a szintetikus videókat felismerő technológiát készítsenek.