Reklama

Powstaje polski model AI do walki ze szkodliwymi treściami

NASK opracował model AI, który ma analizować teksty generowane przez AI pod kątem szkodliwych treści. Czym się różni od innych tego typu narzędzi?
NASK opracował model AI, który ma analizować teksty generowane przez AI pod kątem szkodliwych treści. Czym się różni od innych tego typu narzędzi?
Autor. Omar Lopez-Rincon/Unsplash

NASK opracował model sztucznej inteligencji analizujący nieodpowiednie treści, generowane przez duże modele językowe. Dostosowany do języka polskiego, przewyższa w zadaniach związanych z bezpieczeństwem rozwiązania uniwersalne. Instytut przekazał redakcji CyberDefence24, że narzędzie zostało udostępnione do pobrania, jednak kod źródłowy nie zostanie opublikowany.

W dyskusjach nad sztuczną inteligencją bardzo często pojawia się kwestia jej wykorzystanie w szkodliwych celach. Niejednokrotnie można było usłyszeć o użyciu modeli do generowania fałszywych informacji, co opisywaliśmy na naszych łamach m.in. w czerwcowym przypadku artykułu opublikowanego na jednym z portali, czy w styczniu, gdy panowała moda na konia z chałki.

Reklama

Polski model przeciwko szkodliwym treściom

Na początku lipca br. NASK poinformował, że jego ekspertom udało się opracować model AI, który ma uniemożliwiać generowanie szkodliwych treści przez sztuczną inteligencję. Oparty na infrastrukturze BERT, został wytrenowany na zestawie danych PL-Guard, przygotowany również przez pracowników Instytutu.

HerBERT-PL-Guard – jak nazwano model – ma pełnić rolę strażnika i wykrywać niebezpieczne treści, które AI stworzyła w języku polskim. Jak przekazał w komunikacie kierownik Instytutu Wojciech Kusa z Zakładu Inżynierii Lingwistycznej i Analizy Tekstu Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK, większość tego rodzaju systemów jest przeznaczona pod język angielski.

To oznacza, że użytkownicy mówiący w innych językach mogą być mniej chronieni. Co za tym idzie, ten sam model AI może być bezpieczny w języku angielskim, ale generować niebezpieczne treści w innych językach” – wyjaśnił szef podmiotu.

Czytaj też

Reklama

Wysoka odporność na ataki

Nowy model został przygotowany w taki sposób, aby podczas analizy tekstu stworzonego przez sztuczną inteligencję znajdować błędy i nieprawdziwe informacje przygotowane stricte w języku polskim. Uwzględnia nie tylko skomplikowaną gramatykę, lecz także niuanse lub lokalny kontekst. 

Według NASK, HerBERT-PL-Guard osiągnął najwyższe wyniki w testach odporności na ataki adwersaryjne, polegające na celowej modyfikacji próbek w celu zmylenia modelu. Zapytany o tę kwestię Instytut wyjaśnił naszej redakcji, że chodziło o badanie stabilności klasyfikacji pod wpływem perturbacji danych.

W badaniu wykazano, że uzyskany model jest bardziej stabilny dla takich przypadków niż modele ogólne powszechnego zastosowania jak ChatGPT czy Gemini.
NASK w odpowiedzi dla CyberDefence24

Czytaj też

Reklama

Nie będzie publikacji kodu źródłowego

Według komunikatu Instytutu, model typu Guard ma być czymś podobnym do cyfrowego strażnika, czyli pełnić rolę filtra. Zablokuje dezinformację, mowę nienawiści czy treści niebezpieczne. NASK wyjaśnił naszej redakcji, że PL-Guard może funkcjonować zarówno na etapie przekazywania żądania użytkownika do modelu, jak i przy dostarczaniu odpowiedzi tegoż do człowieka.

Jest to model typu »input-output safeguard«, który może być wykorzystywany zarówno przed, jak i po przetwarzaniu danych przez inne systemy językowe” – przekazał Instytut.

Czy można spodziewać się wdrożeń PL-Guard na terenie naszego kraju? Zapytany o to NASK odpowiedział, że będą prowadzone testy pod kątem zabezpieczenia modeli używanych w asystencie dla mObywatela. Sam HerBERT-PL-Guard został również udostępniony do pobrania na HuggingFace.

Jednocześnie zaznaczono, że kod źródłowy oraz zbiory danych treningowych modelu nie zostaną upublicznione. Przyczyną są względy bezpieczeństwa związane z procesami wewnętrznymi, polityką bezpieczeństwa, a także ograniczeniami licencyjnymi dotyczącymi danych treningowych.

Zachowanie tych elementów w trybie zamkniętym pozwala również minimalizować ryzyko nadużyć oraz nieautoryfikowanego wykorzystania modelu w kontekstach niezgodnych z jego przeznaczeniem” – wyjaśnił NASK.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected]

Reklama
Reklama

WYCIEKI DANYCH z firm. JAK ZAPOBIEGAĆ wynoszeniu danych przez pracowników?

Materiał sponsorowany

Komentarze

    Reklama