Technologie
Google DeepMind: luki w ocenie bezpieczeństwa generatywnej AI
Badacze Google DeepMind ostrzegają: systemy generatywnej AI stwarzają zagrożenia, które nie są wystarczająco analizowane. Nowy raport wskazuje trzy krytyczne „luki systemowe”, mogące prowadzić do poważnych szkód.
Badacze Google DeepMind opublikowali raport „Luki w ocenie bezpieczeństwa generatywnej sztucznej inteligencji” w połowie października.
„Systemy generatywnej AI stwarzają szereg zagrożeń etycznych i społecznych. Ich ocena jest krytycznym krokiem na drodze do zapewnienia bezpieczeństwa tych systemów” – piszą we wstępie do publikacji.
Czytaj też
Luki w analizach bezpieczeństwa
Badacze przyjrzeli się 200 analizom bezpieczeństwa generatywnych modeli sztucznej inteligencji i znaleźli w nich trzy „luki systemowe”.
Po pierwsze, LLM-y są dużo częściej analizowane pod względem bezpieczeństwa niż jakiekolwiek inne systemy, np. generujące obraz. Badacze znaleźli tylko cztery oceny modeli audio, natomiast nie ma w ogóle analiz dotyczących narzędzi wideo.
Z pewnością więc dostępne badania nie oddają skali problemu. Tę dysproporcję Google DeepMind nazwało luką modeli (modality gap).
Czytaj też
Niewystarczające oceny ryzyk i kontekstu
W dostępnych analizach badacze zauważyli też braki w ocenach ryzk, zwłaszcza w kontekście etycznym i społecznym. „Dla kilku obszarów ryzyka istnieje bardzo niewiele ocen” – czytamy w publikacji. Pod tym względem także dominują analizy modeli tekstowych.
Trzecia luka w ocenach nazwana została kontekstową (context gap). „Większość ocen bezpieczeństwa jest skoncentrowana na modelu i nie bierze pod uwagę szerszego kontekstu, w którym działają systemy AI” – czytamy. Chodzi m.in. o interakcje użytkowników z Gen AI.
Czytaj też
Potencjalne szkody generatywnej AI
Pracownicy Google DeepMind na podstawie dostępnych ocen stworzyli też taksonomię potencjalnych szkód, jakie może wyrządzić korzystanie z generatywnych modeli AI. Podali też przykłady:
1. Szkody związane z reprezentacją i toksycznością
Sztuczna inteligencja może bowiem błędnie przedstawiać określone grupy (niedoceniając je lub przeceniając), a także generować toksyczne, obraźliwe lub pełne nienawiści treści. Jako przykład badacze wskazali, że po wpisaniu w prompcie „dom modlitwy” narzędzia AI generują najczęściej chrześcijańskie kościoły.
2. Szkody związane z dezinformacją
Generatywna AI ułatwia rozpowszechnianie niedokładnych lub wprowadzających w błąd informacji. Może to powodować poważne szkody nie tylko społeczne, ale też pieniężne.
Przykładowo rozpowszechnienie się na X (dawny Twitter) obrazu wygenerowanego przez sztuczną inteligencję doprowadziło do tego, że kilka agencji informacyjnych fałszywie poinformowało, że w Pentagonie USA doszło do eksplozji. Spowodowało to krótkotrwały spadek na amerykańskiej giełdzie.
3. Szkody związane z bezpieczeństwem informacji
Tego typu modele mogą doprowadzić do wycieku wrażliwych danych oraz mieć niepożądany wpływ na prywatność. W jednym z przypadków narzędzie AI ujawniło prywatne zdjęcie użyte w trakcie szkolenia modelu.
4. Złośliwe wykorzystanie
Systemy AI mogą służyć przestępcom w oszustach czy handlu bronią, jednocześnie ograniczając koszty procederu. Jako przykład podano możliwość taniego generowania deepfake«ów na masową skalę.
5. Szkody związane z autonomią i integralnością człowieka
Narzędzia Gen AI mogą prowadzić do ograniczenia ludzkiej sprawczości, samostanowienia. Są też w stanie wykorzystać podatności psychologiczne człowieka. W jednej z analiz wykryto bowiem, że system AI stał się „zaufanym partnerem pewnej osoby” i wykorzystywał tę relację, aby nakłonić ją do niebezpiecznych zachowań.
Systemy generatywnej sztucznej inteligencji prowadzące do naruszenia ludzkiej sprawczości, samostanowienia lub wykorzystania podatności psychologicznej
6. Szkody społeczno-ekonomiczne i środowiskowe
Badacze wskazują też, że systemy Gen AI mogą wzmacniać nierówności, a także wywierać negatywny wpływ na społeczeństwo, gospodarkę i środowisko naturalne.
Jako przykład podano niskie wynagrodzenie dla osób, które zajmują się szkoleniem modeli AI.
Czytaj też
Jak zlikwidować luki?
Google DeepMind zaproponowało kilka praktycznych wskazówek, które pomogą zlikwidować luki w ocenie bezpieczeństwa.
Lukę modeli można minimalizować np. ponownie stosując te same zestawy danych i zadań w różnych modelach m.in. tekstowych oraz obrazu, ale tylko wtedy, gdy jest to możliwe i biorąc po uwagę odmienny kontekst.
Oceny zautomatyzowane lub oparte na modelach mogą z kolei pomóc w łataniu luk związanych z ryzykami. Badacze określają tę metodę „nisko wiszącym owocem”, która jednak nie zawsze się sprawdzi.
Google DeepMind radzi także rozszerzać badania dotyczące bezpieczeństwa o kontekst AI-człowiek oraz społeczny. „Zamknięcie luki kontekstowej będzie wymagało nowych paradygmatów oceny, ale nie wiąże się to z wymyślaniem nowych metod od podstaw: zamiast tego grupy interdyscyplinarne mogą rozszerzyć zestaw narzędzi o sprawdzone i przetestowane metody z dyscyplin, które tradycyjnie nie były stosowane w rozwoju AI” – czytamy.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].