Reklama

Modele AI nie rozumują? Ciekawe badania Apple

Czy modele AI potrafią rozumować zgodnie ze swoją nazwą? Okazuje się, że nie potrafią rozwiązywać skomplikowanych zadań opartych na algorytmach - podążają według wyuczonych schematów.
Czy modele AI potrafią rozumować zgodnie ze swoją nazwą? Okazuje się, że nie potrafią rozwiązywać skomplikowanych zadań opartych na algorytmach - podążają według wyuczonych schematów.
Autor. Igor Omilaev/Unsplash

Duże modele nie myślą, a tylko zapamiętują wzorce działania – wynika z badań przeprowadzonych przez Apple. Spośród trzech przetestowanych modeli sztucznej inteligencji, wszystkie nie dały rady rozwiązać skomplikowanych zadań. „Spostrzeżenia podważają dominujące założenia dotyczące ich możliwości” – zauważają badacze.

Gdy w styczniu br. cały świat usłyszał o nowym modelu DeepSeek, zachwytom nad chińską sztuczną inteligencją nie było końca. Na naszych łamach opisywaliśmy, jak dzieło nieznanego większości ludzi start-upu zostało określone jako „lepsze od ChataGPT”, pomimo pojawienia się wątpliwości co do samego procesu szkolenia.

Publikacja Chińczyków spowodowała zarówno wojnę cenową w kraju, jak i gwałtowne przyspieszenie wyścigu AI. OpenAI odpowiedziało DeepSeekowi publikacją funkcji Deep Research – modelu rozumującego. Miał on być lepszy w testach zarówno od „zwykłego” AI Amerykanów, jak również od samego modelu chińskiego.

Reklama

Puzzle zamiast obliczeń

Okazuje się jednak, że terminy sztuczna inteligencja oraz „rozumowanie” mogły zostać niewystarczająco zrozumiane. Eksperci Apple postanowili zbadać, jak duże modele rozumujące (LRM) oraz duże modele językowe (LLM) radzą sobie z rozwiązywaniem określonych zadań. 

Najważniejszą zmianą była jednak formuła testu, który zaprezentowano obu typom modeli. Jak zauważył w swoim wpisie na portalu X (dawny Twitter) zajmujący się tematyką AI Ruben Hassid, w typowych testach, sztuczna inteligencja otrzymuje do rozwiązania znane i wielokrotnie sprawdzone zadania matematyczne. 

Apple postanowiło jednak stworzyć algorytmiczne puzzle logiczne, które wymagają rozumowania i są podzielone na trzy poziomy zaawansowania. Do przeprowadzenia badania wybrano modele Claude 3.7 Sonnet, DeepSeek oraz – w przypadkach wyłącznie z naciskiem na dokładność końcową – o3-mini, zarówno w wersji „zwykłej” jak i rozumującej.

Czytaj też

Reklama

„Zwykłe” AI lepsze od „myślącego”

Decyzja pracowników giganta okazała się przełomową. W testach o niskim poziomie skomplikowania, „zwykłe” AI radziły sobie lepiej od „myślących”. Sytuacja odwrotna panowała w zadaniach średniozaawansowanych, gdy te drugie wspinały się na szczyt.

Całkowitym zaskoczeniem okazały się jednak najtrudniejsze puzzle logiczne. Wydajność obu wersji modeli podczas ich rozwiązywania ulegała załamaniu w tym samym miejscu i spadała do zera.

Wyniki pokazują, że wszystkie modele rozumowania wykazują podobny wzorzec w odniesieniu do złożoności: dokładność stopniowo spada wraz ze wzrostem złożoności problemu, aż do całkowitego załamania (zerowa dokładność) po przekroczeniu określonego progu złożoności modelu.
Apple, „The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”

Czytaj też

Reklama

Podążanie według schematów

Wyjaśnienie tego zjawiska jest interesujące. Z przeprowadzonej przez badaczy analizy tokenów wynika, że liczba tychże wykorzystywana przez modele rośnie proporcjonalnie do poziomu trudności zadania. Jednakże, osiągnięcie przez nie punktu krytycznego powoduje… zmniejszanie wysiłku rozumowania (i liczby tokenów) przez AI. 

Istotny jest fakt, że przez cały czas testów modele nie wyczerpały swoich limitów. „Pomimo tego, nie są one w stanie wykorzystać dodatkowych obliczeń podczas fazy rozumowania, gdy problemy stają się bardziej złożone” – czytamy w artykule opublikowanym przez badaczy Apple.

Ważnym elementem zauważonym w trakcie badań jest podążanie modeli według nauczonych schematów. Gdy nie mogły one rozwiązać jednej łamigłówki, nauczono je rozwiązań, dzięki czemu mogły wykonać nawet 100 ruchów. Nie wpływało to jednak na rezultaty przy innych zadaniach.

Pomimo wyrafinowanych mechanizmów autorefleksji, modele te nie rozwijają generalizowalnych zdolności rozumowania powyżej pewnych progów złożoności” – podsumowują badacze.

Czytaj też

Reklama

Do ogólnej AI jeszcze daleko

Według Rubena Hassida, badania przeprowadzone przez Apple sugerują, że trwający wyścig do stworzenia ogólnej sztucznej inteligencji (artificial general intelligence, AGI) jest jeszcze daleko od mety. Obecne przełomy w „rozumowaniu” przez modele mogą bowiem natrafiać na ograniczenia, których nie da się naprawić zwiększeniem ilości danych lub obliczeń.

Podczas gdy firmy zajmujące się sztuczną inteligencją świętują „rozumowanie” swoich modeli, Apple w zasadzie stwierdziło, że świętują „fałszywe rozumowanie”. Branża goni za wskaźnikami, które nie mierzą rzeczywistej inteligencji” – napisał na X ekspert od AI.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected].

Reklama
Reklama

Operacje Wojska Polskiego. Żołnierze do zadań dużej wagi

Materiał sponsorowany

Komentarze

    Reklama