Halucynacje AI w raporcie Deloitte. Cenna lekcja dla każdego

Autor. Raysonho @ Open Grid Scheduler / Grid Engine / Wikimediacommons
Deloitte zwróci część wynagrodzenia za raport przygotowany z wykorzystaniem sztucznej inteligencji, w którym wykryto poważne błędy merytoryczne. Sprawa uwidacznia zagrożenia wynikające z tzw. halucynacji AI - tworzenia przez systemy treści pozornie wiarygodnych, lecz faktycznie nieprawdziwych.
Jak ujawnił The Guardian na początku października br., Deloitte zgodziło się zwrócić australijskiemu rządowi część wynagrodzenia za raport, w którym bez należytej transparentności wykorzystano generatywną sztuczną inteligencję.
Po wykryciu licznych błędów i publicznej krytyce firma przyznała, że fragmenty dokumentu zostały wygenerowane automatycznie.
Poważne błędy i fikcyjne cytaty
W lipcu 2025 roku australijski Departament Zatrudnienia i Stosunków Pracowniczych otrzymał raport, który miał uporządkować temat automatyzacji kar w systemie opieki społecznej.
Po publikacji raportu szybko pojawiły się sygnały o błędach w raporcie. Chris Rudge, badacz prawa z Uniwersytetu w Sydney, ujawnił, że dokument zawierał liczne błędne przypisy, cytaty nie do zweryfikowania i odwołania do fikcyjnych publikacji. Jednym z najbardziej rażących przykładów było przypisanie profesor Lisy Burton Crawford autorstwa książki, której nigdy nie napisała.
Jak podkreślił Rudge, część przypisów sprawiała wrażenie wygenerowanych automatycznie - z pozorami wiarygodności, ale bez rzeczywistego pokrycia w źródłach. Jego zdaniem szczególnie niepokojące było sfabrykowanie cytatu z sędziego Federal Court Justice. W kontekście raportu, który miał ocenić zgodność działań departamentu z prawem, taki błąd to nie tylko wpadka redakcyjna, ale naruszenie standardów prawnych i etycznych.
Poprawki i przyznanie się do użycia AI
W odpowiedzi na zarzuty Deloitte dokonało przeglądu dokumentu, usuwając błędy i fikcyjne odwołania. W poprawionej wersji pojawiła się informacja, że część treści raportu została wygenerowana za pomocą systemu językowego GPT-4o.
Firma zadeklarowała również, że niektóre przypisy mogły być błędne z powodu automatycznego generowania treści, a pierwotnie nie ujawniono tego klientowi.
„Wprowadzone aktualizacje w żaden sposób nie wpływają ani nie zmieniają merytorycznej treści, ustaleń ani zaleceń zawartych w raporcie” - stwierdziła firma Deloitte w zmienionej wersji dokumentu.
Deloitte Australia dodała: „Sprawa została rozwiązana bezpośrednio z klientem.”
Sprawa stała się katalizatorem publicznej debaty o standardach korzystania z AI w zamówieniach publicznych.
Czytaj też
Konieczność weryfikacji
Wygenerowane treści w tym przypadku nie były wynikiem „awarii” modelu, lecz jego działania zgodnie z przeznaczeniem. GPT-4o jest zaprojektowany do generowania płynnego, spójnego i prawdopodobnego tekstu, nawet jeśli brakuje mu podstawy faktograficznej. Błąd polegał więc przede wszystkim na zaufaniu do AI w kontekście faktograficznym i prawnym o wysokiej stawce.
Incydent z raportem Deloitte ujawnił pewne braki w zakresie zarządzania wykorzystaniem AI. Zawiódł nie tylko system AI, ale przede wszystkim człowiek - poprzez niewystarczający nadzór oraz zbyt duże zaufanie do technologii w obszarze, w którym margines błędu powinien być bliski zeru.
Czytaj też
Problem halucynacji
Modele językowe nowej generacji, takie jak GPT-4o, są projektowane z myślą o maksymalnej płynności i spójności wypowiedzi. Ich głównym zadaniem jest generowanie odpowiedzi, które wydają się logiczne i kontekstowo trafne. W praktyce oznacza to, że system, zamiast przyznać, że „nie wie”, często tworzy najbardziej prawdopodobną kontynuację zdania, nawet jeśli nie dysponuje wystarczającymi danymi.
Halucynacje AI to zjawisko polegające na generowaniu przez modele sztucznej inteligencji pozornie wiarygodnych, lecz faktycznie niedokładnych lub zupełnie fałszywych informacji. W praktyce oznacza to, że AI może tworzyć cytaty, źródła czy dane, które nigdy nie powstały; przy czym nie są to świadome "kłamstwa" ze strony modeli AI, lecz efekt sposobu ich działania. Modele analizują ogromne ilości danych, rozpoznają w nich wzorce i na tej podstawie generują swoje odpowiedzi. Dane, które wykorzystują modele AI mogą być jednak niekompletne lub zawierać błędy. W takiej sytuacji AI może wypełnić luki w danych, tworząc treści, które nie odzwierciedlają rzeczywistości. Halucynacje zdarzają się również, gdy model dostaje niejasne lub sugestywne zapytania lub nie potrafi przenieść wyuczonych wzorców na nowe, nieznane sytuacje.
Julia Dobrowolska, redaktorka fakenews.pl
Jak dodaje ekspertka, halucynacje mogą przyjmować różne formy - od nieszkodliwych błędów w tłumaczeniach czy wygenerowanych obrazach po potencjalnie szkodliwe zmyślone cytaty czy fałszywe dane.
W kontekście raportów rządowych, analiz finansowych czy dokumentów audytowych, takie przekłamania mają szczególnie wysoką wagę - mogą wpływać na decyzje administracyjne, reputację instytucji i kształtowanie polityki publicznej.
Czytaj też
Brak transparentności
Poważnym zarzutem poza jakością samych treści był także brak wcześniejszego ujawnienia wykorzystania AI w procesie tworzenia raportu. Informacja ta pojawiła się dopiero po publicznym napiętnowaniu błędów, co podważyło zaufanie do całej metodologii.
W środowiskach wysokiego ryzyka, takich jak audyty systemów socjalnych, każda automatyzacja powinna być objęta precyzyjną polityką ujawniania - nie tylko informacją, że AI została użyta, ale także jak została użyta: czy generowała dane, interpretacje prawne, czy tylko wspierała redakcję tekstu. Bez tego klient nie jest w stanie ocenić, jak bardzo może ufać przedstawionym informacjom.
Czytaj też
Wnioski dla firm
Incydent z raportem Deloitte stanowi wyraźne ostrzeżenie przed nieprzemyślanym i niekontrolowanym wykorzystaniem sztucznej inteligencji w procesach o wysokiej odpowiedzialności. Pokazuje, że sama technologia nie jest źródłem problemu, a kluczowe znaczenie ma sposób jej wdrożenia, nadzoru i ujawnienia.
Dla firm doradczych, audytowych i instytucji publicznych oznacza to konieczność wprowadzenia jasnych i obowiązkowych standardów zarządzania AI, obejmujących m.in.:
- Deklarację użycia AI i określenie zakresu jej działania - już na etapie zlecenia lub przygotowania raportu. Klient musi wiedzieć, które elementy powstały z udziałem technologii, aby móc właściwie ocenić ich wiarygodność.
- Ręczną weryfikację krytycznych treści takich jak dane, cytaty, odniesienia prawne czy wyniki analiz - przez ekspertów dziedzinowych, a nie wyłącznie przez redaktorów.
- Obowiązkowy udział człowieka w kluczowych etapach procesu tworzenia dokumentu, zwłaszcza w obszarach wymagających interpretacji prawnej lub analizy ryzyka.
Bez tak zdefiniowanych zasad podobne incydenty będą się powtarzać, osłabiając zaufanie do sztucznej inteligencji jako narzędzia wspierającego decyzje. AI może zwiększać efektywność i przyspieszać analizę, ale tylko wtedy, gdy jest używana z pełną świadomością jej ograniczeń i pod ścisłą kontrolą człowieka.
Czytaj też
A co z halucynacjami modeli AI?
Czy możliwe jest ograniczenie problemu halucynacji? Tak, i jak zauważa Open AI, wraz z rozwojem nowych modeli ten problem jest coraz mniejszy, choć cały czas występuje.
— Model GPT‑5 halucynuje w znacznie mniejszym stopniu, zwłaszcza podczas rozumowania, ale nadal się to zdarza. Halucynacje pozostają podstawowym wyzwaniem dla wszystkich dużych modeli językowych. Jednak ciężko pracujemy nad ich eliminowaniem — czytamy na stronie Open AI.
Jak tłumaczy Julia Dobrowolska, kluczowe w kontekście ograniczania tego problemu jest trenowanie modeli na odpowiednich zbiorach danych.
Aby minimalizować halucynacje w generatywnej AI, niezbędne jest trenowanie modeli na wysokiej jakości, zróżnicowanych i reprezentatywnych zbiorach danych oraz ich regularne testowanie w realistycznych scenariuszach, co pozwala wcześnie wykrywać i korygować błędy. W praktyce organizacje lub firmy wykorzystujące generatywną AI powinny integrować modele z zamkniętymi, zweryfikowanymi bazami danych, by zagwarantować, że generowane treści opierają się wyłącznie na wiarygodnych źródłach. Kluczowe jest także wprowadzenie stałej, eksperckiej oceny wyników oraz ich porównywanie z kilkoma niezależnymi modelami w celu wykrywania niezgodności.
Julia Dobrowolska, redaktorka fakenews.pl
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
Cyfrowy Senior. Jak walczy się z oszustami?