GPT-4o. OpenAI wprowadza rozmowę ze sztuczną inteligencją na nowy poziom

Monika Blandyna Lewkowicz 14.05.2024 11:37

13 maja odbyła się konferencja OpenAI „Spring Update”. Prowadziła ją Mira Murati.
Autor. Open AI

OpenAI przedstawiło najnowszy model generatywnej sztucznej inteligencji o nazwie GPT-4o. W trakcie demonstracji transmitowanej na żywo poznaliśmy możliwości chatbota. Jedną z najciekawszych funkcji jest rozmowa ze sztuczną inteligencją w czasie rzeczywistym.

13 maja odbyła się konferencja OpenAI „Spring Update”. Prowadziła ją CTO firmy - Mira Murati. Firma pokazała wersję demo nowego produktu. Chwilę później na stronie giganta technologicznego pojawiły się pełne informacje na ten temat.

Znajdujące się na końcu nazwy „o” jest skrótem od „omni”, co z języka angielskiego tłumaczymy jako „wszech”.

All users will start to get access to GPT-4o today. In coming weeks we’ll begin rolling out the new voice and vision capabilities we demo’d today to ChatGPT Plus.
— OpenAI (@OpenAI) May 13, 2024

GPT-4o - flagowy produkt OpenAI

Jak dowiedzieliśmy się podczas konferencji, GPT-4o to od tej pory flagowy produkt OpenAI. Ma być dostępny za darmo i dla wszystkich w ciągu najbliższych tygodni.

Jak stwierdziła Mira Murati: ”GPT-4o zapewnia inteligencję na poziomie Chatu GPT-4, ale ma większe możliwości w zakresie tekstu, obrazu i dźwięku”.

Czytaj też

Sam Altman krytykuje ChatGPT. Model GPT-4 nazwał „najgłupszym”

Reklama

Rozmowa w czasie rzeczywistym

GPT-4o reaguje na dane w postaci dźwięku, tekstu i obrazu (w tym na dane z kamery). Na tej podstawie także generuje tekst, obraz lub dźwięk – w zależności, o co go poprosimy.

Największe wrażenie robi jednak funkcja rozmowy w czasie rzeczywistym. GPT-4o może reagować na sygnały audio w ciągu zaledwie 232 milisekund, co jest podobne do czasu reakcji człowieka podczas rozmowy.

Nie odbyło się jednak bez wpadek - głos asystentki AI czasami zacinał się lub odpowiedź padała z kilkusekundowym opóźnieniem. W pewnym momencie AI stwierdziła, że widzi prompt w postaci obrazu, zanim został on wprowadzony.

Czytaj też

Kolejna skarga na ChatGPT. Przyczyną zła data urodzenia

Reklama

Rozpoznawanie emocji i kontekstu

W czasie pokazu uczestnicy konferencji przeprowadzili demonstracje rozmowy z GPT-4o. Wyniki były imponujące – zobaczyliśmy jak sztuczna inteligencja o kobiecym głosie potrafi rozpoznawać emocje na podstawie zdjęcia twarzy, żartować, a nawet generować głosy o różnym nacechowaniu emocjonalnym – może na zawołanie brzmieć dramatycznie, robotycznie lub wyśpiewywać odpowiedź.

Co więcej – nowy model GPT potrafi zrozumieć sarkazm czy też kontekst rozmowy. Kiedy asystentka AI, „zrozumiała”, że odybywa się pokaz jej umiejętności i jest chwalona, stwierdziła: „przestań, bo się zarumienię!” i roześmiała się.

Czytaj też

Amazon wykorzystuje nasze emocje, aby przekonać nas do wpuszczenia robotów do domu

Reklama

Tłumaczenie na żywo

GPT-4o potrafi też tłumaczyć wypowiedzi na różne języki w czasie rzeczywistym, co może wprowadzić komunikację na całkiem nowy poziom.

„Dla mnie największe wrażenie zrobiło to tłumaczenie języka. Wyobraźcie to sobie, macie AirPodsy w uchu i idziecie sobie po, nie wiem, Włoszech czy Niemczech i normalnie rozmawiacie z lokalsami (oczywiście, musicie mieć smartfona przed sobą) nie znając ich języka. Albo macie okulary (jak te od Facebooka i Ray-Ban) i widzicie napisy (jak w filmie) wyświetlające się na soczewkach (albo tłumaczy Wam AI symultanicznie). Jakby, to się właśnie dzieje. Kosmos” – skomentował w portalu X Wojciech Kardyś, ekspert ds. komunikacji internetowej i social mediów.

Wszyscy żyją dzisiejszą konferencją @OpenAI ich najnowszego modelu GPT-4-o. I tak, największe wrażenie robi rozmawianie w czasie rzeczywistym (w różnych językach, akcje @duolingo zanurkowały), rozpoznawanie emocji czy obiektów poprzez aparat.

Dla mnie największe wrażenie zrobiło... pic.twitter.com/4BLeY21X8b
— Wojtek Kardys (@WojtekKardys) May 13, 2024

Czytaj też

Aplikacja do tłumaczeń wykradała dane bankowe

Reklama

Korepetycje z matematyki

Kolejną ciekawą funkcją GPT-4o jest tłumaczenie w czasie rzeczywistym, jak rozwiązać proste zadania matematyczne. Podczas pokazu na żywo asystentka AI nie podała od razu poprawnej odpowiedzi, ale krok po kroku naprowadzała pytającego na rozwiązanie prostego równania z niewiadomą – podobnie jak czyni to korepetytor.

Math problems with GPT-4o and @khanacademy pic.twitter.com/RfKaYx5pTJ
— OpenAI (@OpenAI) May 13, 2024

Czytaj też

DARPA: Matematyka lekarstwem na cyberbezpieczeństwo

Reklama

Rozpoznawanie emocji a prawo unijne

Wspomniana funkcja rozpoznawania emocji budzi kontrowersje. Akt o sztucznej inteligencji, który będzie wkrótce wdrażany w krajach UE, w tym w Polsce, zakazuje takich praktyk w miejscu pracy i w instytucjach (szkoły, urzędy, banki itp.).

„Wprowadzanie do obrotu, oddawanie do użytku lub wykorzystywanie systemów sztucznej inteligencji do odczytywania emocji osoby fizycznej w obszarach miejsca pracy i instytucji oświatowych, z wyjątkiem sytuacji, gdy wykorzystanie systemu sztucznej inteligencji ma na celu wprowadzone lub wprowadzone na rynek ze względów medycznych lub bezpieczeństwa"
Akt o sztucznej inteligencji

Ten fakt zwróciła uwagę w portalu X dr Luiza Jarovsky, prawniczka i badaczka, która zawodowo zajmuje się sztuczną inteligencją: „OpenAI będzie musiało zadbać o to, aby rozpoznawanie emocji w oparciu o sztuczną inteligencję nie było wdrażane w miejscach pracy i placówkach oświatowych podlegających AI Act” – stwierdziła ekspertka.

„Nowe możliwości z pewnością robią wrażenie, a ponieważ nie chodzi tylko o szum medialny, wyzwania prawne mające na celu zapewnienie ich zgodności dopiero się rozpoczynają” – dodała dr Jarovsky.

OpenAI has just made a demo showing GPT-4o's capabilities. At one point, an OpenAI employee asks the system to detect his emotion (see the screenshot below). A reminder that according to the EU AI Act, the following AI practice is prohibited:

"the placing on the market, the… pic.twitter.com/jfaBgiNBNL
— Luiza Jarovsky (@LuizaJarovsky) May 13, 2024

Czytaj też

Jak wdrożyć Akt o sztucznej inteligencji? Eksperci zabierają głos

Reklama

Zbieranie wrażliwych danych

Warto pamiętać, że GPT-4 ma funkcję pamięci. Oznacza to, że będzie w stanie zapamiętać wszystkie informacje osobiste, jakie mu podamy – nie tylko nasze ulubione filmy czy potrawy, ale też szczegóły naszego życia rodzinnego, zawodowego, czy intymnego, jakiekolwiek inne dane.

Jeśli nie zaznaczymy inaczej – nasze odpowiedzi będą używane do szkolenia sztucznej inteligencji. Trzeba więc bardzo uważać na to, jakie informacje podajemy GPT-4o oraz co pokazujemy w aparacie/ kamerce i na zdjęciach.

Reklama

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama