Reklama

Technologie

SVC czy Tacotron? Żadne z głosowych AI nie jest perfekcyjne

Efekt końcowy w procesie generowania głosu AI zależy od wybranej metody. Tacotron i Singing Voice Conversion są atrakcyjne, ale nie perfekcyjne.
Efekt końcowy w procesie generowania głosu AI zależy od wybranej metody. Tacotron i Singing Voice Conversion są atrakcyjne, ale nie perfekcyjne.
Autor. Prince Abid/Unsplash

Wygenerowanie przez sztuczną inteligencję wypowiedzi danej osoby nie oznacza od razu sukcesu w sklonowaniu głosu. Efekt końcowy zależy zarówno od jakości materiału źródłowego, jak i wykorzystanej metody. W przypadku niepowodzenia, kilkanaście godzin pracy może się wydłużyć do kilkudziesięciu.

„Produkcja” głosu przez AI może zająć jedynie kilkadziesiąt godzin od startu do uzyskania pierwszego wygenerowanego dźwięku. Jeżeli użytkownik ma dostateczne doświadczenie i szczęście, nie będzie musiał wprowadzać drobnych poprawek do modelu. Bardzo prawdopodobne jednak, że tychże elementów mu zwyczajnie zabraknie.

Czytaj też

Reklama

Kontrola postępów

W tym miejscu trzeba się zatrzymać. To od treningu zależy bowiem, jakiej jakości nagrania będzie generować model sztucznej inteligencji. Wśród gigantów technologicznych nie jest to problemem, ale w zaciszu domowym – już tak.

Zarówno osoby, które zdecydowały się na wykorzystanie Tacotrona (reprezentującego text-to-speech) oraz Singing Voice Conversion, mogą kontrolować postępy treningu modelu. W tym pierwszym przypadku jest to możliwe za pomocą spektrogramów, zaś w drugim – skrypt udostępnia plik oryginalny wykorzystany do treningu oraz plik wygenerowany przez AI do porównania.

Czytaj też

Reklama

Aby nie zmarnować czasu

Już na tym etapie można podjąć decyzję dotyczącą dalszych działań co do modelu. SVC ma tutaj przewagę nad Tacotronem, ponieważ wygenerowane podczas treningu audio można od razu odsłuchać, a co za tym idzie – szybciej wprowadzić poprawki, zaś w przypadku spektrogramów trzeba wytężać wzrok, aby dojrzeć anomalie. W Tacotronie większość użytkowników, zwłaszcza tych początkujących, zauważy problemy dopiero na etapie generowania właściwego.

Powyższe jest o tyle ważne, że w przypadku popełnienia błędu na etapie przygotowywania audio (np. poprzez pozostawienie szumów czy muzyki w tle) w wygenerowanych próbkach mogą znajdować się niepożądane dźwięki. Rezultatem ich obecności będzie stworzenie przez AI nienaturalnej kakofonii dźwięków, której nie da się usunąć w post-produkcji. Tym samym okaże się, że ostatnie kilka godzin pracy poszło na marne.

Czytaj też

Reklama

Klucz do naturalnego brzmienia

Kolejnym problemem jest naturalne brzmienie AI. Ponownie Tacotron będzie w gorszej sytuacji w stosunku do SVC. Chodzi tutaj o metodę generowania – Tacotron musi przewidzieć, jak ma brzmieć wypowiedź danej postaci, co może się skończyć „efektem Ivony” (np. losowymi zmianami intonacji). Singing Voice Conversion ta kwestia nie dotyczy ze względu na obecnośćreference audio.

Nie oznacza to jednak, że SVC ma tutaj absolutną przewagę nad Tacotronem i nie ma sensu próbować opcji text-to-speech.Reference audio musi być bowiem przygotowane na wysokim poziomie, aby wygenerowana wypowiedź była w miarę wiarygodna.

W przypadku SVC, model stara się m.in. zachować akcent autorareference audio. Przykładowo, jeżeli SVC zostanie wykorzystane przez scammerów do przygotowania deepfake’a zachęcającego do inwestowania, to pierwszymi wskazówkami, że coś jest nie tak, będą akcent postaci oraz styl jej wypowiedzi. Oczywiście oprócz samego faktu, że zachęca ona do inwestycji.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama
Reklama

Komentarze