WIADOMOŚCI

Czy sztuczna inteligencja będzie bronić samej siebie?

4 marca 2026, 17:01

3 min.

Zabezpieczenia przygotowywane przez autorów modeli sztucznej inteligencji są najważniejszą blokadą uniemożliwiającą wykorzystanie ich niezgodnie z przewidzianymi celami. Nie wszystkie jednak są skuteczne, a niektóre sposoby na ich obejście mogą zaskakiwać. Powagę problemu podkreśla fakt, że do weryfikacji poleceń dla AI rozważane jest wykorzystanie innego modelu.

Inżynierowie AI muszą mierzyć się z wieloma zagrożeniami dla swoich modeli. Jak konkretnie można je obronić i czy faktycznie potrzeba do tego innego modelu sztucznej inteligencji?
Autor. Freepik.com. Licencja: https://www.freepik.com/legal/terms-of-use, https://support.freepik.com/s/article/Attribution-How-when-and-where

Jednym z najpoważniejszych zagrożeń, z którym muszą się mierzyć twórcy sztucznej inteligencji, jest niepożądane działanie opracowanych przez nich modeli. Spektrum problemu jest szerokie: od opracowywania broni, po odpowiedzi przekonujące rozmówców do odebrania sobie życia.

Na łamach naszego portalu wielokrotnie poruszaliśmy kwestię zarówno wyzwań, jak i konkretnych przypadków. Tylko w 2025 roku zarówno relacjonowaliśmy sprawę uczennicy, której wizerunek został wykorzystany w materiale deepnude przez jej kolegów czy kontrowersje wokół Character.AI po samobójstwie jednego z nastoletnich użytkowników.

Zobacz też

Demagog startuje z Obiektywem

Zmylić model, ominąć zabezpieczenia

W rozmowach dotyczących szans, zagrożeń i perspektyw związanych ze sztuczną inteligencją bardzo często pojawia się zasada odpowiedzialnego AI. Mowa tu zarówno o zabezpieczeniach przed szkodliwymi odpowiedziami i działaniami ze strony AI – m.in. w postaci AI guardrails – jak również atakami ze strony aktorów zagrożeń.

Temat ten poruszono również podczas tegorocznego Genetec Global Press Summit, który miał miejsce w Montrealu.

W ostatnim przypadku, gdzie modele powinny być chronione przed działaniami typu jailbreak, największym problemem jest tzw. wstrzykiwanie podpowiedzi (prompt injection). Odpowiednie sformułowanie polecenia pozwala ominąć zabezpieczenia wbudowane w modele i wprowadzić je w stan podobny do oszołomienia, aby podjęły się zakazanego działania.

Inżynierowie AI muszą się mierzyć nie tylko z takimi konstrukcjami jak gra ról czy zaciemienie (obfuscation). Największe ryzyko stanowią bowiem techniki pośredniego wstrzykiwania podpowiedzi, które w wielu przypadkach korzystają z nieświadomości osoby korzystającej ze sztucznej inteligencji. Ukrycie polecenia w wiadomości e-mail przeanalizowanej przez agenta AI czy umieszczenie promptu na zdjęciu otworzyło atakującym nowe możliwości.

AI będzie broniło AI?

Co ciekawe, jednym z zabezpieczeń przed tego typu atakami może być… zastosowanie innego modelu AI, który będzie sprawdzał treść przed przekazaniem jej do agenta w celu właściwego przetworzenia.

Jak jednak zaznaczył w rozmowie z naszym portalem Mathieu Chevalier, Principal Security Architect w Genetec, one również mogą stać się celem dla atakujących. Odpowiedzią na to ma być zastosowanie strategii głębokiej obrony (defense in depth), którą można przyrównać do modelu szwajcarskiego sera.

„Jednym ze sposobów może być wykorzystanie innego modelu, którego działanie będzie odmienne od pierwotnego. W ten sposób to samo polecenei, które zadziałałoby przy głównym modelu, nie przejdzie przy dodatkowym” – wyjaśnił Chavalier.

Przy głębokiej obronie są pewne dziury. Jeżeli jednak posiadamy model zaprojektowany specjalnie do celów obronnych, nie do odpowiadania użytkownikowi i odpornego na takie metody ataków, znacznie zmniejszamy szanse przeciwnika na sukces. Wszystko sprowadza się do gry opartej na prawdopodobieństwie.
Mathieu Chavalier, Principal Security Architect, Genetec

Zobacz też

Wojna na Bliskim Wschodzie. Iran, Izrael i USA – operacje, których nie widać

Konieczny kompromis

Pojawia się jednak kolejna kwestia: czy zbyt duża ilość zasad dotyczących ograniczeń może w ostateczności doprowadzić model do oszołomienia?

Według eksperta Genetec, jest to raczej kwestia kompromisu, z którym będą musieli się zmierzyć twórcy modelu. Najbardziej widocznym efektem będzie opóźnienie w realizacji polecenia.

„Jeden model analizuje prompt pod kątem bezpieczeństwa w przeciągu pół sekundy. Potem główny model realizuje polecenie w ciągu dwóch-trzech sekund, potem jeszcze następny. To oznacza większe koszty i obniżenie komfortu użytkownika”*– wyjaśnił Mathieu Chavalier w rozmowie z naszą redakcją, podkreślając, że obecnie działania te realizowane są równolegle.

„Główny model może od razu przetworzyć dane i wysłać je na następny poziom tylko wtedy, gdy pierwsza zapora LLM wyrazi zgodę lub odmowę” – zaznaczył Chavalier.

Paweł Makowiec

4 marca 2026, 17:01

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].