Genialne czy niebezpieczne? AI zmienia jedno zdjęcie na nagranie

Monika Blandyna Lewkowicz 18.04.2024 13:52

VASA-1 potrafi wygenerować różne ruchy twarzy
Autor. Microsoft Reaserch / materiały prasowe

Microsoft Research przedstawił narzędzie VASA-1, oparte na technologii sztucznej inteligencji. Na podstawie zdjęcia i próbki głosu generuje ono realistyczne nagrania. VASA-1 może mieć wiele pozytywnych zastosowań, ale wzbudza też kontrowersje ze względu na możliwość tworzenia deepfake«ów i szerzenia dezinformacji.

VASA-1 generuje nagrania, które dość realistycznie odzwierciedlają naturalną mowę człowieka, a także mimikę i ruchy głowy. Wystarczy jedno zdjęcie i krótkie nagranie głosu, by powstało nagranie o rozmiarze 512x512 i 40 FPS (klatki na sekundę). Efekty robią wrażenie.

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
— Bindu Reddy (@bindureddy) April 17, 2024

Odzwierciedlenie emocji

Na zaprezentowanych nagraniach możemy zobaczyć, że sztuczna inteligencja dobrze radzi sobie z ruchami ust, oczu, brwi i głowy. Pozwala to na wygenerowanie różnych emocji – złości, zaskoczenia, zadowolenia – które pojawiają się podczas wypowiadania poszczególnych zdań.

Na próbkach VASA-1 przedstawionych przez Microsoft widzimy też, jak postaci mrugają podczas wypowiedzi, co wcześniej stanowiło duży problem w narzędziach tego typu.

Program potrafi generować mowę w różnych językach, poradzi sobie też z odtworzeniem śpiewu.

Czytaj też

„Stworzone przez AI”. Facebook i Instagram z nową funkcją

Reklama

Nie do końca naturalny efekt

Jeśli jednak dobrze przyjrzeć się nagraniom, można dostrzec różne niedoskonałości. Ruchy głowy pojawiające się cały czas w tej samej sekwencji nie są do końca naturalne.

Na mankamenty zwracają też uwagę użytkownicy platformy X. „Podczas mówienia zęby zmieniają rozmiary” – pisze jedna osoba. „Włosy nie ruszają się podczas kręcenia głową. Pozostają cały czas w tej samej pozycji” – dodaje ktoś inny.

„Emocje nie zawsze dopasowane są do tego, co w danej chwili mówi postać” – zwraca uwagę kolejny użytkownik.

Czytaj też

Instagram walczy z sextortion. Zakryje to, co trzeba

Reklama

Zalety VASA-1

Narzędzie może być użyteczne dla osób z zaburzeniami mowy. VASA-1 można też wykorzystać w edukacji – program umożliwia ożywianie historycznych postaci czy obrazów w bardzo realistyczny sposób.

Wśród próbek nagrań przedstawionych przez Microsoft znalazła się Mona Lisa, która… rapuje piosenkę Lady Gagi „Paparazzi”.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Czytaj też

#CyberMagazyn: Czy sztuka generowana przez sztuczną inteligencję może zastąpić artystów?

Reklama

Ryzyko manipulacji

Narzędzia takie jak VASA-1 znacznie ułatwiają tworzenie deepfake«ów, co może służyć szerzeniu dezinformacji. Istnieje ryzyko, że technologia może zostać użyta przez oszustów próbujących wyłudzić dane lub pieniądze, do wypływania na decyzje wyborcze, czy tworzenia zmanipulowanych materiałów ośmieszających różne osoby.

Microsoft zdaje sobie sprawę z tych zagrożeń. Z tego powodu produkt nie jest dostępny dla publiczności i na razie nie ma takich planów.

„Nie zamierzamy wypuszczać wersji online demo, API, ani całego produktu, dopóki nie upewnimy się, że technologia będzie wykorzystywana odpowiedzialnie i zgodnie z prawem” – napisał Microsoft Research w informacji prasowej.

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama