Polska sztuczna inteligencja ma być „bardziej etyczna”. Jak jest trenowana?

Monika Blandyna Lewkowicz 31.07.2024 17:07

PLLuM to polski duży model językowy, nad którym pracuje sześć jednostek naukowych
Autor. BoliviaInteligente / Unsplash

W ramach projektu PLLuM trwają prace nad polskim dużym modelem językowym. Na jakich danych trenowana jest sztuczna inteligencja? Czy wydawcy i twórcy mają się czego obawiać? Kwestie te w imieniu zespołu PLLuM wyjaśnia Aleksandra Tomaszewska z Polskiej Akademii Nauk.

PLLuM to polski duży model językowy, nad którym pracuje sześć jednostek naukowych. Projekt został zainagurowany w kwietniu ubiegłego roku. Polski chatbot ma powstać do końca 2024 roku.

Z kolei w ostatnim czasie media społecznościowe obiegło pismo stworzone przez PLLuM. Autorzy projektu zachęcają wydawnictwa, instytucje edukacyjne, naukowe i artystyczne do współpracy, czyli dzielenia się tekstami, które mogą zostać użyte do trenowania polskiego modelu językowego. List wywołał obawy niektórych twórców. O sprawie pisaliśmy na naszych łamach.

Poprosiliśmy zespół PLLuM o wyjaśnienie kwestii dokumentu i wątpliwości związanych ze szkoleniem AI.

Czytaj też

Polski duży model językowy. PLLuM nie będzie jak ChatGPT

Reklama

Kontrowersje wokół trenowania sztucznej inteligencji

Trenowanie sztucznej inteligencji to temat, który wzbudza wiele kontrowersji. OpenAI wyszkoliło ChatGPT na tekstach dostępnych w internecie, bez zgody twórców. Nie jest to zabronione prawem, jednak według wielu ekspertów mimo wszystko może naruszać prawa autorskie. W związku z tym, OpenAI, jak i inne giganty technologiczne zostały pozwane przez wydawców prasy – m.in. przez „The New Tork Times”, „New York Daily News” czy „Chicago Tribune”.

Ostatnio duże kontrowersje wywołało także ogłoszenie nowej wersji GPT-4o, której interfejs głosowy brzmiał łudząco podobnie do aktorki Scarlett Johansson. Gwiazda Hollywood interweniowała w tej sprawie, o czym pisaliśmy w naszym portalu.

Do tych kwestii w imieniu PLLuM odnosi się Aleksandra Tomaszewska z Zespołu Inżynierii Lingwistycznej Instytutu Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN). Jednostka bierze udział w projekcie.

„Tworzenie dobrej jakości modeli językowych wymaga dostępu do dużego zbioru starannie dobranych danych. Poleganie na niewyselekcjonowanych pod kątem choćby licencji tekstach pobranych masowo i automatycznie może powodować słabą jakość modelu, ale też jest dyskusyjne z perspektywy etycznej, a często również prawnej” – komentuje naukowczyni w rozmowie z CyberDefence24.pl.

Aleksandra Tomaszewska o PLLuM — Aleksandra Tomaszewska z Zespołu Inżynierii Lingwistycznej Instytutu Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN).
Autor. materiały własne

Czytaj też

Kolejny pozew dla twórców generatywnej sztucznej inteligencji Stable Diffusion

Reklama

„Chcemy stworzyć etyczne AI"

Jak zauważa nasza rozmówczyni, trend nieetycznego trenowania AI zaczyna się zmieniać. Widać to m.in. w działaniach OpenAI, które zaczęło pytać wydawców o zgodę i podpisywać z nimi umowy licencyjne.

My chcemy iść inną drogą – przede wszystkim zauważamy gdzieś już tlącą się ideę dążenia do trenowania LLM-ów na danych bardziej „etycznych". Nie jest to jeszcze idea bardzo rozpowszechniona, bo jest to po prostu zadanie trudne i czasochłonne. W projekcie PLLuM podejmujemy to wyzwanie.
Aleksandra Tomaszewska, PAN

Podobne działania prowadzi PLLuM i z właśnie tego powodu autorzy projektu zaczęli wysłać list, w którym zachęcają środowisko twórcze do współpracy. Jak przekazała nam Aleksandra Tomaszewska - pismo trafiło do mniejszych i większych wydawnictw, instytucji kultury i instytucji edukacyjnych, stowarzyszeń, autorek i autorów blogów, stron internetowych.

„Do budowy otwartego modelu językowego do wszelkich zastosowań, w tym komercyjnych, korzystamy z danych, które mają odpowiednie licencje i które możemy włączyć do zbioru uczącego zgodnie z obowiązującym prawem” – podkreśla naukowczyni w rozmowie z CyberDefence24.pl

„Chcemy »przedstawić się« wydawcom i nawiązać kontakt. Jeśli jest wola rozmów z nami ze strony wydawcy, a te rozmowy do niczego nie zobowiązują, kontynuujemy nasz kontakt i proponujemy podpisanie umów licencyjnych” – precyzuje nasza rozmówczyni.

Na jakich tekstach trenowany jest PLLuM?

Na stronie internetowej PLLuM można przeczytać, że szkolenie polskiego modelu AI zaczęło się w czerwcu i potrwa do końca września. Informacje te potwierdza badaczka IPI PAN:

„Rozpoczęliśmy etap trenowania na tekstach zgromadzonych przez lata przez naszych konsorcjantów (Politechnikę Wrocławską, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Naukową i Akademicką Sieć Komputerową, Ośrodek Przetwarzania Informacji oraz Uniwersytet Łódzki) oraz zebranych w trakcie realizacji projektu. Te treści poddaliśmy gruntownej selekcji, deduplikacji (eliminowanie powtarzających się części w zbiorze danych – red.) i weryfikacji, również z uwzględnieniem istotnych kwestii licencyjnych”.

Ponieważ proces pozyskiwania tekstów od wydawców jest „czasochłonny i pełen wyzwań” PLLuM zdecydowało się zbierać te materiały przez cały czas trwania projektu i uzględniać je w dalszych pracach.

Jak dodaje Tomaszewska, PLLuM jest też szkolone na tekstach dostępnych w domenie publicznej czy na innych, odpowiednich licencjach Creative Commons, a także na publikacjach otrzymanych od wydawców czy różnych instytucji – tylko za ich zgodą i na podstawie umów licencyjnych, których treść jest wypracowana razem z wydawcami.

Więcej o źródłach danych można przeczytać na blogu dotyczącym projektu.

Czytaj też

Popularni twórcy pozywają OpenAI. Chodzi o bezprawne trenowanie ChatuGPT

Reklama

Szczegółowa analiza prawna

Naukowczyni przekazała nam, że zanim rozpoczęło się trenowanie polskiego modeli językowego, zespół przeprowadził szczegółową analizę bieżącego stanu prawnego, w tym ustawy o sztucznej inteligencji i dyrektywy UE w sprawie praw autorskich i pokrewnych na jednolitym rynku cyfrowym.

„Na tej podstawie określiliśmy, jakie dane mogą być wykorzystywane w procesach wstępnego uczenia i dostrajania modelu” – podkreśla nasza rozmówczymi.

Czytaj też

Sztuczna inteligencja. Będzie nowy minister w rządzie?

Reklama

Generowanie tekstów jak matura z historii

Tomaszewska tłumaczy też, na czym polega trenowanie polskiego modelu sztucznej inteligencji. „Zebrane dane mogą być użyte do »uczenia« PLLuM-a – mówiąc prostym językiem, model zapozna się z nimi i z nich wyciągnie wiedzę, z której później skorzysta na przykład w zadaniach generatywnych” – opowiada.

Naukowczyni cały proces generowania treści przez AI porównuje do nauki w szkole:

Przez lata studiujemy podręczniki, wynosimy wiadomości z lekcji, a później na przykład na maturze z historii piszemy wypracowanie na temat wydarzeń, o których przeczytałyśmy czy usłyszeliśmy wcześniej. Podobnie działa generatywna sztuczna inteligencja.
Aleksandra Tomaszewska, PAN

Czytaj też

#CyberMagazyn: Sztuczna inteligencja w nauce. Nowa era odkryć i współpracy?

Reklama

Którzy wydawcy zdecydowali się nawiązać współpracę?

Jak usłyszeliśmy - jest jeszcze za wcześnie by poznać konkretne nazwy.

„Możemy zdradzić, że są to różni wydawcy – mniejsi i więksi – którzy przekazali nam publikacje zróżnicowane tematycznie – od historii, przez beletrystykę, aż po żeglarstwo czy pszczelarstwo. Cieszymy się z tego, bo im bardziej zróżnicowane dane będzie znał model, tym lepiej odpowie na potrzeby użytkowniczek i użytkowników modelu” – komentuje Tomaszewska.

„Bardzo liczymy na to, że ta inicjatywa będzie wieloletnia i że nasza współpraca z wydawcami w celu tworzenia dobrej jakości otwartego modelu polskojęzycznego będzie mogła trwać. Jest to krok niezbędny w kierunku etycznego AI” – podsumowuje nasza rozmówczyni.

Wydawcy, instytucje i firmy zainteresowane współpracą z PLLuM mogą zgłosić się przez formularz dostępny TUTAJ.

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama