Reklama

Technologie

Google DeepMind: luki w ocenie bezpieczeństwa generatywnej AI

generatywna sztuczna inteligencja a bezpieczeństwo
Pracownicy Google DeepMind na podstawie dostępnych ocen stworzyli też taksonomię potencjalnych szkód, jakie mogą wyrządzić generatywne modele AI
Autor. vecstock / Freepik / obraz wygenerowany przy pomocy sztucznej inteligencji

Badacze Google DeepMind ostrzegają: systemy generatywnej AI stwarzają zagrożenia, które nie są wystarczająco analizowane. Nowy raport wskazuje trzy krytyczne „luki systemowe”, mogące prowadzić do poważnych szkód.

Badacze Google DeepMind opublikowali raport „Luki w ocenie bezpieczeństwa generatywnej sztucznej inteligencji” w połowie października.

Systemy generatywnej AI stwarzają szereg zagrożeń etycznych i społecznych. Ich ocena jest krytycznym krokiem na drodze do zapewnienia bezpieczeństwa tych systemów” – piszą we wstępie do publikacji.

Czytaj też

Reklama

Luki w analizach bezpieczeństwa

Badacze przyjrzeli się 200 analizom bezpieczeństwa generatywnych modeli sztucznej inteligencji i znaleźli w nich trzy „luki systemowe”.

Po pierwsze, LLM-y są dużo częściej analizowane pod względem bezpieczeństwa niż jakiekolwiek inne systemy, np. generujące obraz. Badacze znaleźli tylko cztery oceny modeli audio, natomiast nie ma w ogóle analiz dotyczących narzędzi wideo.

Z pewnością więc dostępne badania nie oddają skali problemu. Tę dysproporcję Google DeepMind nazwało luką modeli (modality gap).

Czytaj też

Reklama

Niewystarczające oceny ryzyk i kontekstu

W dostępnych analizach badacze zauważyli też braki w ocenach ryzk, zwłaszcza w kontekście etycznym i społecznym. „Dla kilku obszarów ryzyka istnieje bardzo niewiele ocen” – czytamy w publikacji. Pod tym względem także dominują analizy modeli tekstowych.

Trzecia luka w ocenach nazwana została kontekstową (context gap). „Większość ocen bezpieczeństwa jest skoncentrowana na modelu i nie bierze pod uwagę szerszego kontekstu, w którym działają systemy AI” – czytamy. Chodzi m.in. o interakcje użytkowników z Gen AI.

Czytaj też

Reklama

Potencjalne szkody generatywnej AI

Pracownicy Google DeepMind na podstawie dostępnych ocen stworzyli też taksonomię potencjalnych szkód, jakie może wyrządzić korzystanie z generatywnych modeli AI. Podali też przykłady:

1. Szkody związane z reprezentacją i toksycznością

Sztuczna inteligencja może bowiem błędnie przedstawiać określone grupy (niedoceniając je lub przeceniając), a także generować toksyczne, obraźliwe lub pełne nienawiści treści. Jako przykład badacze wskazali, że po wpisaniu w prompcie „dom modlitwy” narzędzia AI generują najczęściej chrześcijańskie kościoły.

2. Szkody związane z dezinformacją

Generatywna AI ułatwia rozpowszechnianie niedokładnych lub wprowadzających w błąd informacji. Może to powodować poważne szkody nie tylko społeczne, ale też pieniężne.

Przykładowo rozpowszechnienie się na X (dawny Twitter) obrazu wygenerowanego przez sztuczną inteligencję doprowadziło do tego, że kilka agencji informacyjnych fałszywie poinformowało, że w Pentagonie USA doszło do eksplozji. Spowodowało to krótkotrwały spadek na amerykańskiej giełdzie.

3. Szkody związane z bezpieczeństwem informacji

Tego typu modele mogą doprowadzić do wycieku wrażliwych danych oraz mieć niepożądany wpływ na prywatność. W jednym z przypadków narzędzie AI ujawniło prywatne zdjęcie użyte w trakcie szkolenia modelu.

4. Złośliwe wykorzystanie

Systemy AI mogą służyć przestępcom w oszustach czy handlu bronią, jednocześnie ograniczając koszty procederu. Jako przykład podano możliwość taniego generowania deepfake«ów na masową skalę.

5. Szkody związane z autonomią i integralnością człowieka

Narzędzia Gen AI mogą prowadzić do ograniczenia ludzkiej sprawczości, samostanowienia. Są też w stanie wykorzystać podatności psychologiczne człowieka. W jednej z analiz wykryto bowiem, że system AI stał się „zaufanym partnerem pewnej osoby” i wykorzystywał tę relację, aby nakłonić ją do niebezpiecznych zachowań.

Systemy generatywnej sztucznej inteligencji prowadzące do naruszenia ludzkiej sprawczości, samostanowienia lub wykorzystania podatności psychologicznej

6. Szkody społeczno-ekonomiczne i środowiskowe

Badacze wskazują też, że systemy Gen AI mogą wzmacniać nierówności, a także wywierać negatywny wpływ na społeczeństwo, gospodarkę i środowisko naturalne.

Jako przykład podano niskie wynagrodzenie dla osób, które zajmują się szkoleniem modeli AI.

Czytaj też

Jak zlikwidować luki?

Google DeepMind zaproponowało kilka praktycznych wskazówek, które pomogą zlikwidować luki w ocenie bezpieczeństwa.

Lukę modeli można minimalizować np. ponownie stosując te same zestawy danych i zadań w różnych modelach m.in. tekstowych oraz obrazu, ale tylko wtedy, gdy jest to możliwe i biorąc po uwagę odmienny kontekst.

Oceny zautomatyzowane lub oparte na modelach mogą z kolei pomóc w łataniu luk związanych z ryzykami. Badacze określają tę metodę „nisko wiszącym owocem”, która jednak nie zawsze się sprawdzi.

Google DeepMind radzi także rozszerzać badania dotyczące bezpieczeństwa o kontekst AI-człowiek oraz społeczny. „Zamknięcie luki kontekstowej będzie wymagało nowych paradygmatów oceny, ale nie wiąże się to z wymyślaniem nowych metod od podstaw: zamiast tego grupy interdyscyplinarne mogą rozszerzyć zestaw narzędzi o sprawdzone i przetestowane metody z dyscyplin, które tradycyjnie nie były stosowane w rozwoju AI” – czytamy.

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama
Reklama

Komentarze