Reklama

Technologie

ByteDance prezentuje nowy model AI

Firma ByteDance zaprezentowała OmniHuman-1, model sztucznej inteligencji, który generuje realistyczne ludzkie filmy wideo
Firma ByteDance zaprezentowała OmniHuman-1, model sztucznej inteligencji, który generuje realistyczne ludzkie filmy wideo
Autor. Antoni Shkraba/Pexels

Firma ByteDance zaprezentowała OmniHuman-1, model sztucznej inteligencji, który generuje realistyczne ludzkie filmy wideo przy użyciu pojedynczego obrazu i sygnałów ruchu. Może on znaleźć zastosowanie w różnych dziedzinach.

OmniHuman-1 wykorzystuje architekturę Diffusion Transformer (DiT), dzięki której jest w stanie dokładnie przewidywać ruchy człowieka, a następnie poprawiać szczegóły, aż ostateczny wynik wideo przypomina naturalny ruch.

Proces ten jest analogiczny do szkicowania przez artystę podstawowego zarysu przed dodaniem drobniejszych szczegółów.

Jakie możliwości daje nowy model?

W przeciwieństwie do poprzednich metod, które koncentrowały się głównie na animacjach twarzy lub ciała, OmniHuman-1 generuje dynamiczne filmy wideo przy użyciu pojedynczego obrazu referencyjnego i sygnałów ruchu. Wystarczy zatem dostarczyć jedno zdjęcie, a model wygeneruje na jego podstawie materiał. Przykładowe nagrania stworzone w ten sposób można zobaczyć na tej stronie.

Dodatkowo model jest w stanie przetwarzać mowę lub muzykę, aby zsynchronizować ruchy warg i gesty ciała. Ta zdolność pozwala na naturalne gesty mowy i ruchy głowy. Analizuje on też referencyjne filmy wideo w celu odtworzenia złożonych wzorców ruchu.

Użytkownicy mogą również dostarczyć klip jako szablon, a model odtwarza podobne ruchy. Obsługuje też łączenie danych wejściowych audio i wideo, co zapewnia solidniejszą kontrolę nad tym, jak poruszają się różne części ciała. Zapewnia to większą dokładność w realizmie gestów.

    Reklama

    Nowa strategia treningowa

    OmniHuman-1 stosuje nową strategię treningową, która wykorzystuje zarówno silne, jak i słabe sygnały warunkujące. W tym kontekście „silne” warunki (takie jak dokładne dane pozy) zapewniają szczegółowe wskazówki, podczas gdy „słabe” (takie jak wskazówki dźwiękowe) przyczyniają się do różnorodności danych.

    Strategia ta ma minimalizować straty danych. Zamiast odrzucać dane o ruchu, które nie spełniają ścisłych kryteriów, model optymalizuje wykorzystanie wszystkich dostępnych danych. W rezultacie uzyskuje wysokiej jakości animacje przy minimalnych danych wejściowych, nawet jeśli obraz referencyjny lub dźwięk nie są idealne. Z przykładowymi nagraniami można zapoznać się tutaj.

      Reklama

      Zastosowanie modelu

      Nowy model może znaleźć zastosowanie w różnych obszarach. Firmy zajmujące się mediami cyfrowymi i platformy społecznościowe mogą wykorzystywać OmniHuman-1 do tworzenia realistycznych animowanych awatarów z jednego obrazu referencyjnego. Awatary te mogą angażować odbiorców poprzez naśladowanie ludzkich gestów i mimiki, dzięki czemu są cenne w kampaniach marketingowych i treściach w mediach społecznościowych.

      Dodatkowo w branży rozrywkowej i gier może zostać wykorzystany do tworzenia realistycznych postaci z naturalnym ruchem. Twórcy gier i filmów mogą natomiast generować animacje całego ciała bez potrzeby przechwytywania ruchu, zmniejszając koszty produkcji i przyspieszając proces twórczy.

      Ponadto model może znaleźć zastosowanie w opowiadaniu historii oraz tworzeniu treści edukacyjnych, które wymagają realistycznych animacji ludzkich. Platformy edukacyjne mogą wykorzystywać tę technologię do tworzenia wciągających wykładów lub samouczków z animowanymi postaciami, które przekazują złożone informacje poprzez dynamiczne wizualne opowiadanie historii.

      Zdolność OmniHuman-1 do dostosowywania współczynników proporcji, co sprawia, że nadaje się on też do zastosowań w rzeczywistości wirtualnej (VR) i rzeczywistości rozszerzonej (AR). Programiści mogą generować niestandardowe treści wideo, które pasują do różnych formatów ekranu, zwiększając wrażenia w środowiskach VR / AR.

      Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

      Reklama
      Reklama

      Jak odkryto blokady w pociągach Newagu?

      YouTube cover video

      Komentarze

        Reklama