Technologie
Genialne czy niebezpieczne? AI zmienia jedno zdjęcie na nagranie
Microsoft Research przedstawił narzędzie VASA-1, oparte na technologii sztucznej inteligencji. Na podstawie zdjęcia i próbki głosu generuje ono realistyczne nagrania. VASA-1 może mieć wiele pozytywnych zastosowań, ale wzbudza też kontrowersje ze względu na możliwość tworzenia deepfake«ów i szerzenia dezinformacji.
VASA-1 generuje nagrania, które dość realistycznie odzwierciedlają naturalną mowę człowieka, a także mimikę i ruchy głowy. Wystarczy jedno zdjęcie i krótkie nagranie głosu, by powstało nagranie o rozmiarze 512x512 i 40 FPS (klatki na sekundę). Efekty robią wrażenie.
The First AI-Generated Video That Looks Super Real
— Bindu Reddy (@bindureddy) April 17, 2024
Microsoft Research announced VASA-1.
It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
Odzwierciedlenie emocji
Na zaprezentowanych nagraniach możemy zobaczyć, że sztuczna inteligencja dobrze radzi sobie z ruchami ust, oczu, brwi i głowy. Pozwala to na wygenerowanie różnych emocji – złości, zaskoczenia, zadowolenia – które pojawiają się podczas wypowiadania poszczególnych zdań.
Na próbkach VASA-1 przedstawionych przez Microsoft widzimy też, jak postaci mrugają podczas wypowiedzi, co wcześniej stanowiło duży problem w narzędziach tego typu.
Program potrafi generować mowę w różnych językach, poradzi sobie też z odtworzeniem śpiewu.
Czytaj też
Nie do końca naturalny efekt
Jeśli jednak dobrze przyjrzeć się nagraniom, można dostrzec różne niedoskonałości. Ruchy głowy pojawiające się cały czas w tej samej sekwencji nie są do końca naturalne.
Na mankamenty zwracają też uwagę użytkownicy platformy X. „Podczas mówienia zęby zmieniają rozmiary” – pisze jedna osoba. „Włosy nie ruszają się podczas kręcenia głową. Pozostają cały czas w tej samej pozycji” – dodaje ktoś inny.
„Emocje nie zawsze dopasowane są do tego, co w danej chwili mówi postać” – zwraca uwagę kolejny użytkownik.
Czytaj też
Zalety VASA-1
Narzędzie może być użyteczne dla osób z zaburzeniami mowy. VASA-1 można też wykorzystać w edukacji – program umożliwia ożywianie historycznych postaci czy obrazów w bardzo realistyczny sposób.
Wśród próbek nagrań przedstawionych przez Microsoft znalazła się Mona Lisa, która… rapuje piosenkę Lady Gagi „Paparazzi”.
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
Czytaj też
Ryzyko manipulacji
Narzędzia takie jak VASA-1 znacznie ułatwiają tworzenie deepfake«ów, co może służyć szerzeniu dezinformacji. Istnieje ryzyko, że technologia może zostać użyta przez oszustów próbujących wyłudzić dane lub pieniądze, do wypływania na decyzje wyborcze, czy tworzenia zmanipulowanych materiałów ośmieszających różne osoby.
Microsoft zdaje sobie sprawę z tych zagrożeń. Z tego powodu produkt nie jest dostępny dla publiczności i na razie nie ma takich planów.
„Nie zamierzamy wypuszczać wersji online demo, API, ani całego produktu, dopóki nie upewnimy się, że technologia będzie wykorzystywana odpowiedzialnie i zgodnie z prawem” – napisał Microsoft Research w informacji prasowej.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected].