Reklama

Technologie

Genialne czy niebezpieczne? AI zmienia jedno zdjęcie na nagranie

nagrania wygenerowane ze zdjęć w VASA-1 przez AI
VASA-1 potrafi wygenerować różne ruchy twarzy
Autor. Microsoft Reaserch / materiały prasowe

Microsoft Research przedstawił narzędzie VASA-1, oparte na technologii sztucznej inteligencji. Na podstawie zdjęcia i próbki głosu generuje ono realistyczne nagrania. VASA-1 może mieć wiele pozytywnych zastosowań, ale wzbudza też kontrowersje ze względu na możliwość tworzenia deepfake«ów i szerzenia dezinformacji.

VASA-1 generuje nagrania, które dość realistycznie odzwierciedlają naturalną mowę człowieka, a także mimikę i ruchy głowy. Wystarczy jedno zdjęcie i krótkie nagranie głosu, by powstało nagranie o rozmiarze 512x512 i 40 FPS (klatki na sekundę). Efekty robią wrażenie.

Odzwierciedlenie emocji

Na zaprezentowanych nagraniach możemy zobaczyć, że sztuczna inteligencja dobrze radzi sobie z ruchami ust, oczu, brwi i głowy. Pozwala to na wygenerowanie różnych emocji – złości, zaskoczenia, zadowolenia – które pojawiają się podczas wypowiadania poszczególnych zdań.

Na próbkach VASA-1 przedstawionych przez Microsoft widzimy też, jak postaci mrugają podczas wypowiedzi, co wcześniej stanowiło duży problem w narzędziach tego typu.

Program potrafi generować mowę w różnych językach, poradzi sobie też z odtworzeniem śpiewu.

Czytaj też

Reklama

Nie do końca naturalny efekt

Jeśli jednak dobrze przyjrzeć się nagraniom, można dostrzec różne niedoskonałości. Ruchy głowy pojawiające się cały czas w tej samej sekwencji nie są do końca naturalne.

Na mankamenty zwracają też uwagę użytkownicy platformy X. „Podczas mówienia zęby zmieniają rozmiary” – pisze jedna osoba. „Włosy nie ruszają się podczas kręcenia głową. Pozostają cały czas w tej samej pozycji” – dodaje ktoś inny.

Emocje nie zawsze dopasowane są do tego, co w danej chwili mówi postać” – zwraca uwagę kolejny użytkownik.

Czytaj też

Reklama

Zalety VASA-1

Narzędzie może być użyteczne dla osób z zaburzeniami mowy.  VASA-1 można też wykorzystać w edukacji – program umożliwia ożywianie historycznych postaci czy obrazów w bardzo realistyczny sposób.

Wśród próbek nagrań przedstawionych przez Microsoft znalazła się Mona Lisa, która… rapuje piosenkę Lady Gagi „Paparazzi”.

Czytaj też

Reklama

Ryzyko manipulacji

Narzędzia takie jak VASA-1 znacznie ułatwiają tworzenie deepfake«ów, co może służyć szerzeniu dezinformacji. Istnieje ryzyko, że technologia może zostać użyta przez oszustów próbujących wyłudzić dane lub pieniądze, do wypływania na decyzje wyborcze, czy tworzenia zmanipulowanych materiałów ośmieszających różne osoby.

Microsoft zdaje sobie sprawę z tych zagrożeń. Z tego powodu produkt nie jest dostępny dla publiczności i na razie nie ma takich planów.

„Nie zamierzamy wypuszczać wersji online demo, API, ani całego produktu, dopóki nie upewnimy się, że technologia będzie wykorzystywana odpowiedzialnie i zgodnie z prawem” – napisał Microsoft Research w informacji prasowej.

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected].

Reklama
Reklama

Komentarze