VASA-1 od Microsoftu dokáže zfalšovat osobu pomocí jediného obrázku a jediné zvukové stopy

Přiblížit / Maketový obrázek od společnosti Microsoft „VASA-1: Hlasové mluvící tváře generované v reálném čase“.

V úterý to odhalil Microsoft Research Asia Vasa-1, model umělé inteligence, který dokáže vytvořit synchronizované animované video osoby mluvící nebo zpívající z jednoho obrázku a existující zvukové stopy. V budoucnu by to mohlo pohánět virtuální avatary, které se zobrazují lokálně a nevyžadují přenos videa, nebo umožnit komukoli s podobnými nástroji vyfotit někoho online a působit, jako by říkal, co chce.

„Vydláždí cestu pro interakce v reálném čase s živými avatary, které napodobují lidské konverzační chování,“ uvádí shrnutí výzkumu. Doprovodný výzkumný příspěvek S názvem „VASA-1: Živé hlasové mluvící tváře vytvořené v reálném čase“. Je to práce Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong a Baining Guo.

Rámec VASA (zkratka pro „Visual Affective Skills Animator“) využívá strojové učení k analýze statického obrazu spolu se zvukovým klipem řeči. Poté lze vytvořit realistické video obsahující přesné výrazy obličeje, pohyby hlavy a synchronizaci rtů se zvukem. Neklonuje ani nesimuluje zvuky (jako jiné výzkumy společnosti Microsoft), ale spoléhá se na existující hlasový vstup, který lze nahrát nebo vyslovit speciálně pro konkrétní účel.

Microsoft tvrdí, že model výrazně předčí předchozí metody animace řeči, pokud jde o realismus, expresivitu a efektivitu. Pro naše oči to vypadá jako vylepšení oproti modelům animací s jedním obrázkem, které byly dříve.

Úsilí o výzkum umělé inteligence se rozšiřuje na posunutí alespoň jednoho obrazu osoby nebo postavy zpět Pár letNedávno však vědci synchronizovali automaticky generované video se zvukovou stopou. V únoru byl model AI stažen EMO: Vyjádřete obraz živý Z výzkumné skupiny Intelligent Computing Institute společnosti Alibaba vytváří vlny s přístupem podobným VASA-1, který dokáže automaticky synchronizovat pohyblivý obraz s vykreslenou zvukovou stopou (nazývají to „Audio2Video“).

READ Poll: Box Art Brawl # 84 - Pokémon Snap

Cvičil jsem na klipech na YouTube

Výzkumníci společnosti Microsoft vyškolili VASA-1 na Datová sada VoxCeleb2 Byl vytvořen v roce 2018 třemi výzkumníky z Oxfordské univerzity. Tato datová sada obsahuje „více než milion frází od 6 112 celebrit“, podle VoxCeleb2, extrahovaných z videí nahraných na YouTube. VASA-1 údajně dokáže vytvářet videa s rozlišením 512 x 512 pixelů rychlostí až 40 snímků za sekundu s minimální latencí, což znamená, že by mohl být použit pro aplikace v reálném čase, jako jsou videokonference.

K předvedení modelu vytvořil Microsoft vyhledávací stránku VASA-1, která se zobrazuje Mnoho video ukázek nástroj v akci, včetně lidí, kteří zpívají a mluví v synchronizaci s předem nahranými zvukovými stopami. Ukazuje, jak lze s modelem manipulovat, aby vyjádřil různé nálady nebo změnil vzhled jeho očí. Příklady zahrnují také některé z chladnějších generací, jako je Mona Lisa rapující přes soundtrack Anne Hathawayové předvádějící hudební číslo. Píseň „Paparazzi“. Na Conana O'Briena.

Z důvodu ochrany soukromí byl každý ukázkový obrázek na jejich stránce generován umělou inteligencí, říkají vědci Stylegan2 Nebo DALL-E 3 (kromě Mony Lisy). Tato technika se však samozřejmě dá použít i na obrázky skutečných lidí, i když pravděpodobně bude fungovat lépe, pokud bude osoba vypadat podobně jako jedna z celebrit v tréninkovém souboru dat. Vědci však tvrdí, že hluboce falešní skuteční lidé nejsou jejich cílem.

„Zkoumáme vytváření vizuálních emocionálních dovedností pro virtuální a interaktivní postavy [sic]- Nevydávejte se za nikoho v reálném světě. Toto je pouze zkušební demo a neexistuje žádný plán na vydání produktu nebo API,“ píše se na webu.

Zatímco výzkumníci Microsoftu nabízejí potenciální pozitivní aplikace, jako je podpora rovnosti ve vzdělávání, zlepšení dostupnosti a poskytování terapeutického doprovodu, lze tuto technologii také snadno zneužít. Mohlo by to například umožnit lidem předstírat videochaty, způsobit, že skuteční lidé říkají věci, které nikdy neřekli (zejména ve spojení s klonovanou zvukovou stopou), nebo umožnit obtěžování pomocí jednoho obrázku na sociálních sítích.

READ Kolik lidí stále aktivně hraje MultiVersus měsíc po jeho masivním spuštění?

Právě teď vygenerované video stále v některých ohledech vypadá nedokonale, ale pro některé lidi by mohlo být docela přesvědčivé, kdyby nevěděli, že očekávají animaci vygenerovanou AI. Vědci tvrdí, že jsou si toho vědomi, a proto veřejně nezveřejnili kód, který model řídí.

„Jsme proti jakémukoli chování k vytváření zavádějícího nebo škodlivého obsahu pro skutečné lidi a máme zájem použít naši metodu ke zlepšení odhalování podvodů,“ napsali vědci. „V současné době videa vytvořená tímto způsobem stále obsahují rozpoznatelné artefakty a digitální analýza ukazuje, že stále existuje mezera v dosažení autenticity skutečných videí.“

VASA-1 je pouze ukázkou výzkumu, ale Microsoft není jedinou skupinou, která pracuje na vývoji podobné technologie. Pokud je nedávná historie generativní umělé inteligence nějakým vodítkem, bude pravděpodobně jen otázkou času, kdy se podobná technologie stane open source a volně dostupná – a je velmi pravděpodobné, že se bude v průběhu času dále zlepšovat v realismu.