ByteDance prezentuje nowy model AI

Mikołaj Rogalewicz 05.02.2025 16:56

Firma ByteDance zaprezentowała OmniHuman-1, model sztucznej inteligencji, który generuje realistyczne ludzkie filmy wideo
Autor. Antoni Shkraba/Pexels

Firma ByteDance zaprezentowała OmniHuman-1, model sztucznej inteligencji, który generuje realistyczne ludzkie filmy wideo przy użyciu pojedynczego obrazu i sygnałów ruchu. Może on znaleźć zastosowanie w różnych dziedzinach.

OmniHuman-1 wykorzystuje architekturę Diffusion Transformer (DiT), dzięki której jest w stanie dokładnie przewidywać ruchy człowieka, a następnie poprawiać szczegóły, aż ostateczny wynik wideo przypomina naturalny ruch.

Proces ten jest analogiczny do szkicowania przez artystę podstawowego zarysu przed dodaniem drobniejszych szczegółów.

Jakie możliwości daje nowy model?

W przeciwieństwie do poprzednich metod, które koncentrowały się głównie na animacjach twarzy lub ciała, OmniHuman-1 generuje dynamiczne filmy wideo przy użyciu pojedynczego obrazu referencyjnego i sygnałów ruchu. Wystarczy zatem dostarczyć jedno zdjęcie, a model wygeneruje na jego podstawie materiał. Przykładowe nagrania stworzone w ten sposób można zobaczyć na tej stronie.

Dodatkowo model jest w stanie przetwarzać mowę lub muzykę, aby zsynchronizować ruchy warg i gesty ciała. Ta zdolność pozwala na naturalne gesty mowy i ruchy głowy. Analizuje on też referencyjne filmy wideo w celu odtworzenia złożonych wzorców ruchu.

Użytkownicy mogą również dostarczyć klip jako szablon, a model odtwarza podobne ruchy. Obsługuje też łączenie danych wejściowych audio i wideo, co zapewnia solidniejszą kontrolę nad tym, jak poruszają się różne części ciała. Zapewnia to większą dokładność w realizmie gestów.

Czytaj też

Polska z limitem na chipy. USA nie potrafią uzasadnić decyzji

Reklama

Nowa strategia treningowa

OmniHuman-1 stosuje nową strategię treningową, która wykorzystuje zarówno silne, jak i słabe sygnały warunkujące. W tym kontekście „silne” warunki (takie jak dokładne dane pozy) zapewniają szczegółowe wskazówki, podczas gdy „słabe” (takie jak wskazówki dźwiękowe) przyczyniają się do różnorodności danych.

Strategia ta ma minimalizować straty danych. Zamiast odrzucać dane o ruchu, które nie spełniają ścisłych kryteriów, model optymalizuje wykorzystanie wszystkich dostępnych danych. W rezultacie uzyskuje wysokiej jakości animacje przy minimalnych danych wejściowych, nawet jeśli obraz referencyjny lub dźwięk nie są idealne. Z przykładowymi nagraniami można zapoznać się tutaj.

Czytaj też

Handel danymi Ukraińców. Rozbito zorganizowaną grupę

Reklama

Zastosowanie modelu

Nowy model może znaleźć zastosowanie w różnych obszarach. Firmy zajmujące się mediami cyfrowymi i platformy społecznościowe mogą wykorzystywać OmniHuman-1 do tworzenia realistycznych animowanych awatarów z jednego obrazu referencyjnego. Awatary te mogą angażować odbiorców poprzez naśladowanie ludzkich gestów i mimiki, dzięki czemu są cenne w kampaniach marketingowych i treściach w mediach społecznościowych.

Dodatkowo w branży rozrywkowej i gier może zostać wykorzystany do tworzenia realistycznych postaci z naturalnym ruchem. Twórcy gier i filmów mogą natomiast generować animacje całego ciała bez potrzeby przechwytywania ruchu, zmniejszając koszty produkcji i przyspieszając proces twórczy.

Ponadto model może znaleźć zastosowanie w opowiadaniu historii oraz tworzeniu treści edukacyjnych, które wymagają realistycznych animacji ludzkich. Platformy edukacyjne mogą wykorzystywać tę technologię do tworzenia wciągających wykładów lub samouczków z animowanymi postaciami, które przekazują złożone informacje poprzez dynamiczne wizualne opowiadanie historii.

Zdolność OmniHuman-1 do dostosowywania współczynników proporcji, co sprawia, że nadaje się on też do zastosowań w rzeczywistości wirtualnej (VR) i rzeczywistości rozszerzonej (AR). Programiści mogą generować niestandardowe treści wideo, które pasują do różnych formatów ekranu, zwiększając wrażenia w środowiskach VR / AR.

Reklama

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama