Google DeepMind: luki w ocenie bezpieczeństwa generatywnej AI

Monika Blandyna Lewkowicz 23.10.2024 07:42

Pracownicy Google DeepMind na podstawie dostępnych ocen stworzyli też taksonomię potencjalnych szkód, jakie mogą wyrządzić generatywne modele AI
Autor. vecstock / Freepik / obraz wygenerowany przy pomocy sztucznej inteligencji

Badacze Google DeepMind ostrzegają: systemy generatywnej AI stwarzają zagrożenia, które nie są wystarczająco analizowane. Nowy raport wskazuje trzy krytyczne „luki systemowe”, mogące prowadzić do poważnych szkód.

Badacze Google DeepMind opublikowali raport „Luki w ocenie bezpieczeństwa generatywnej sztucznej inteligencji” w połowie października.

„Systemy generatywnej AI stwarzają szereg zagrożeń etycznych i społecznych. Ich ocena jest krytycznym krokiem na drodze do zapewnienia bezpieczeństwa tych systemów” – piszą we wstępie do publikacji.

Czytaj też

AI zamiast dziennikarzy. Fala krytyki po „eksperymencie” Off Radio Kraków

Reklama

Luki w analizach bezpieczeństwa

Badacze przyjrzeli się 200 analizom bezpieczeństwa generatywnych modeli sztucznej inteligencji i znaleźli w nich trzy „luki systemowe”.

Po pierwsze, LLM-y są dużo częściej analizowane pod względem bezpieczeństwa niż jakiekolwiek inne systemy, np. generujące obraz. Badacze znaleźli tylko cztery oceny modeli audio, natomiast nie ma w ogóle analiz dotyczących narzędzi wideo.

Z pewnością więc dostępne badania nie oddają skali problemu. Tę dysproporcję Google DeepMind nazwało luką modeli (modality gap).

Czytaj też

AI coraz częściej wykorzystywana przez pedofilów. „Jesteśmy w punkcie krytycznym”

Reklama

Niewystarczające oceny ryzyk i kontekstu

W dostępnych analizach badacze zauważyli też braki w ocenach ryzk, zwłaszcza w kontekście etycznym i społecznym. „Dla kilku obszarów ryzyka istnieje bardzo niewiele ocen” – czytamy w publikacji. Pod tym względem także dominują analizy modeli tekstowych.

Trzecia luka w ocenach nazwana została kontekstową (context gap). „Większość ocen bezpieczeństwa jest skoncentrowana na modelu i nie bierze pod uwagę szerszego kontekstu, w którym działają systemy AI” – czytamy. Chodzi m.in. o interakcje użytkowników z Gen AI.

Czytaj też

Przyjaźń dzieci ze sztuczną inteligencją. Jakie może mieć skutki?

Reklama

Potencjalne szkody generatywnej AI

Pracownicy Google DeepMind na podstawie dostępnych ocen stworzyli też taksonomię potencjalnych szkód, jakie może wyrządzić korzystanie z generatywnych modeli AI. Podali też przykłady:

1. Szkody związane z reprezentacją i toksycznością

Sztuczna inteligencja może bowiem błędnie przedstawiać określone grupy (niedoceniając je lub przeceniając), a także generować toksyczne, obraźliwe lub pełne nienawiści treści. Jako przykład badacze wskazali, że po wpisaniu w prompcie „dom modlitwy” narzędzia AI generują najczęściej chrześcijańskie kościoły.

2. Szkody związane z dezinformacją

Generatywna AI ułatwia rozpowszechnianie niedokładnych lub wprowadzających w błąd informacji. Może to powodować poważne szkody nie tylko społeczne, ale też pieniężne.

Przykładowo rozpowszechnienie się na X (dawny Twitter) obrazu wygenerowanego przez sztuczną inteligencję doprowadziło do tego, że kilka agencji informacyjnych fałszywie poinformowało, że w Pentagonie USA doszło do eksplozji. Spowodowało to krótkotrwały spadek na amerykańskiej giełdzie.

3. Szkody związane z bezpieczeństwem informacji

Tego typu modele mogą doprowadzić do wycieku wrażliwych danych oraz mieć niepożądany wpływ na prywatność. W jednym z przypadków narzędzie AI ujawniło prywatne zdjęcie użyte w trakcie szkolenia modelu.

4. Złośliwe wykorzystanie

Systemy AI mogą służyć przestępcom w oszustach czy handlu bronią, jednocześnie ograniczając koszty procederu. Jako przykład podano możliwość taniego generowania deepfake«ów na masową skalę.

5. Szkody związane z autonomią i integralnością człowieka

Narzędzia Gen AI mogą prowadzić do ograniczenia ludzkiej sprawczości, samostanowienia. Są też w stanie wykorzystać podatności psychologiczne człowieka. W jednej z analiz wykryto bowiem, że system AI stał się „zaufanym partnerem pewnej osoby” i wykorzystywał tę relację, aby nakłonić ją do niebezpiecznych zachowań.

Systemy generatywnej sztucznej inteligencji prowadzące do naruszenia ludzkiej sprawczości, samostanowienia lub wykorzystania podatności psychologicznej

6. Szkody społeczno-ekonomiczne i środowiskowe

Badacze wskazują też, że systemy Gen AI mogą wzmacniać nierówności, a także wywierać negatywny wpływ na społeczeństwo, gospodarkę i środowisko naturalne.

Jako przykład podano niskie wynagrodzenie dla osób, które zajmują się szkoleniem modeli AI.

Czytaj też

OpenAI: ChatGPT był wykorzystywany do 20 operacji wpływu

Reklama

Jak zlikwidować luki?

Google DeepMind zaproponowało kilka praktycznych wskazówek, które pomogą zlikwidować luki w ocenie bezpieczeństwa.

Lukę modeli można minimalizować np. ponownie stosując te same zestawy danych i zadań w różnych modelach m.in. tekstowych oraz obrazu, ale tylko wtedy, gdy jest to możliwe i biorąc po uwagę odmienny kontekst.

Oceny zautomatyzowane lub oparte na modelach mogą z kolei pomóc w łataniu luk związanych z ryzykami. Badacze określają tę metodę „nisko wiszącym owocem”, która jednak nie zawsze się sprawdzi.

Google DeepMind radzi także rozszerzać badania dotyczące bezpieczeństwa o kontekst AI-człowiek oraz społeczny. „Zamknięcie luki kontekstowej będzie wymagało nowych paradygmatów oceny, ale nie wiąże się to z wymyślaniem nowych metod od podstaw: zamiast tego grupy interdyscyplinarne mogą rozszerzyć zestaw narzędzi o sprawdzone i przetestowane metody z dyscyplin, które tradycyjnie nie były stosowane w rozwoju AI” – czytamy.

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama