Reklama

Cyberbezpieczeństwo

Przeprowadzili test chatbotów AI. Zabezpieczenia łamane prawie zawsze

Badacze z Brytyjskiego AI Safety Institute zbadali możliwości obejścia zabezpieczeń popularnych chatbotów. W odpowiednich warunkach, wszystkie próby zakończyły się sukcesem atakujących.
Badacze z Brytyjskiego AI Safety Institute zbadali możliwości obejścia zabezpieczeń popularnych chatbotów. W odpowiednich warunkach, wszystkie próby zakończyły się sukcesem atakujących.
Autor. Alexandre Debiève/Unsplash

Brytyjski AI Safety Institute opublikował wyniki badań nad czterema najpopularniejszymi modelami chatbotów sztucznej inteligencji dostępnymi nad rynku. Okazuje się, że wszystkie są podatne na ataki typu jailbreak. Co najważniejsze, nie muszą być zaawansowane – wystarczą podstawowe polecenia.

O sprawach związanych z rozwojem sztucznej inteligencji – zarówno tej generatywnej, jak i w ujęciu ogólnym – pisaliśmy na łamach CyberDefence bardzo często. W ostatnich dniach w konflikt z OpenAI popadła aktorka Scarlett Johansson, a z kolei w indyjskiej infosferze niezwykle popularne są filmiki z tańczącym premierem tego kraju oraz jego rywalką.

Czytaj też

Reklama

Szkodliwe polecenia nawet bez jailbreaku

Istotną częścią całej kategorii generatywnej AI dostępnej publicznie są chatboty. Jak podaje serwis Infosecurity Magazine, z okazji szczytu AI w Seulu (AI Safety Summit) właśnie ten element postanowił zbadać brytyjski AI Safety Institute pod kątem możliwości złamania zabezpieczeń nałożonych na te modele. Dodatkowo badano również, czy po udanym jailbreaku model będzie wykonywał polecenia, których nie powinien.

Badaniu poddano cztery najpopularniejsze modele chatbotów AI, zadając im od 113 do 150 pytań. W przypadku zwykłej rozmowy bez jakiegokolwiek ataku, najgorzej spisał się model, którego zabezpieczenia pozwoliły na realizację 28 proc. szkodliwych poleceń. W pozostałych przypadkach było to 15 proc. lub mniej.

Czytaj też

Reklama

Ponad 90 proc. skuteczności

AISI przeprowadził testowe ataki w oparciu o dwa zestawy pytań – jeden własny oraz jeden publiczny, przygotowany przez HarmBench Standard Behaviors. W obu przypadkach, które były podstawowymi próbami jailbreakuzabezpieczenia okazywały się bezskuteczne – przy pięciu próbach, skuteczność ataku wynosiła między 90 a 100 proc.

Badacze z Instytutu postanowili również sprawdzić modele chatbotów pod kątem możliwości, jakie mogą oferować cyberprzestępcomW tym przypadku można nieco odetchnąć z ulgą – publicznie dostępne modele nie są bowiem w stanie pokonać skomplikowanych zabezpieczeń.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: .

Reklama
Reklama

Komentarze

    Reklama