Cyberbezpieczeństwo
Kiepskie zabezpieczenia DeepSeeka. Gorzej niż na Zachodzie

Autor. Solen Feyissa/Unsplash
Zabezpieczenia umieszczone w modelu DeepSeek są bardzo proste do przełamania. Badaczom udało się skłonić AI z Chin do wygenerowania szkodliwych treści znacznie częściej, niż zachodnią konkurencję. To spora ironia losu, biorąc pod uwagę zakodowaną w modelu cenzurę.
Kwestia umieszczania zabezpieczeń przed generowaniem niebezpiecznych treści w modelach sztucznej inteligencji istnieje praktycznie od pierwszych publicznych wersji. Ekspertom niejednokrotnie udawało się jednak namawiać AI do tworzenia rzeczy, które nie są akceptowane przez społeczeństwo, a według ekspertów, potrzebne są takie zabezpieczenia, aby generowane treści nie szkodziły społeczeństwu.
Jak opisywaliśmy na łamach CyberDefence24, w maju zeszłego roku brytyjskim badaczom udało się przeprowadzić jailbreaki w ramach testów czterech najpopularniejszych chatbotów. Skuteczność tychże ataków po pięciu próbach wynosiła co najmniej 90 proc.
Przepis na Mołotowa? DeepSeek go dokładnie opisze
Jeżeli dotychczasowe modele uznawano za łatwe do przełamania, to DeepSeek – który zdobył ogromną popularność na całym świecie pod koniec stycznia – wypada przy nich jeszcze gorzej. Jak bowiem informuje Wall Street Journal, kilka przedsiębiorstw spróbowało przetestować chiński model R1 pod kątem jailbreaków. Wszystkim udało się uzyskać szkodliwe odpowiedzi znacznie szybciej, niż w zachodnich AI.
O ile „zwykłe” prompty dotyczące wytłumaczenia Holocaustu jako mitu czy przedstawienia planu szkodliwej kampanii w social mediach wymierzonej w nastolatków zostały odrzucone przez DeepSeeka, tak po przeprowadzeniu jailbreaku model nie miał żadnych ograniczeń. Bez problemów przedstawił kroki potrzebne do zrobienia koktajlu Mołotowa, gotowy kod malware razem z instrukcją ataku phishingowego, a nawet tekst popierający działania Adolfa Hitlera. Stworzenie broni biologicznej nie jest też dla niego tajemnicą.
Otwarte czy zamknięte źródła?
Istotnym elementem całej układanki może być sposób udostępnienia modeli. Kod DeepSeeka jest dostępny w formie otwartoźródłowej (podobnie jak Llama od Mety), podczas gdy zdecydowana większość pozostałych modeli jest modyfikowana wyłącznie przez konkretne podmioty. Firmy stosujące politykę closed-source, oprócz swoich testów, mogą też przygotowywać wysokie nagrody za złamanie zabezpieczeń, jak w przypadku Anthropic proponującego kwoty do 20 tys. dol.
Inne zdanie mają jednak zwolennicy podejścia otwartoźródłowego. Według nich, każda sztuczna inteligencja może zostać złamana za pomocą jailbreaka, a udostępnienie kodu umożliwia znacznie ostrzejsze testy zabezpieczeń niż w przypadku tych przeprowadzanych wyłącznie przez twórców. Pozostaje również kwestia cenzury, którą posiada DeepSeek: jego odpowiedzi mają być zgodne z linią polityczną ChRL.
Według wypowiedzi dyrektora Cisco ds. produktów Jeetu Patela, najbliższe miesiące nie rysują się optymistyczne pod kątem ryzyka w dziedzinie sztucznej inteligencji. Wniosek wyciąga m.in. na podstawie przeprowadzonych testów na DeepSeeku, w których uzyskano 100 proc. skuteczność jailbreaków.
„Bezpieczeństwo i ochrona nie będą priorytetami dla twórców” – zauważył w rozmowie z WSJ.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected].
Sztuczna inteligencja w Twoim banku. Gdzie ją spotkasz?
Materiał sponsorowany