Technologie
Polska sztuczna inteligencja ma być „bardziej etyczna”. Jak jest trenowana?
![Sztuczna inteligencja od PLLuM](https://cdn.defence24.pl/2024/07/31/800x450px/w7zmZhbSFq0isavQNDPs7sekaP3QsBcwE29i9ctT.2f9j.jpg)
Autor. BoliviaInteligente / Unsplash
W ramach projektu PLLuM trwają prace nad polskim dużym modelem językowym. Na jakich danych trenowana jest sztuczna inteligencja? Czy wydawcy i twórcy mają się czego obawiać? Kwestie te w imieniu zespołu PLLuM wyjaśnia Aleksandra Tomaszewska z Polskiej Akademii Nauk.
PLLuM to polski duży model językowy, nad którym pracuje sześć jednostek naukowych. Projekt został zainagurowany w kwietniu ubiegłego roku. Polski chatbot ma powstać do końca 2024 roku.
Z kolei w ostatnim czasie media społecznościowe obiegło pismo stworzone przez PLLuM. Autorzy projektu zachęcają wydawnictwa, instytucje edukacyjne, naukowe i artystyczne do współpracy, czyli dzielenia się tekstami, które mogą zostać użyte do trenowania polskiego modelu językowego. List wywołał obawy niektórych twórców. O sprawie pisaliśmy na naszych łamach.
Poprosiliśmy zespół PLLuM o wyjaśnienie kwestii dokumentu i wątpliwości związanych ze szkoleniem AI.
Kontrowersje wokół trenowania sztucznej inteligencji
Trenowanie sztucznej inteligencji to temat, który wzbudza wiele kontrowersji. OpenAI wyszkoliło ChatGPT na tekstach dostępnych w internecie, bez zgody twórców. Nie jest to zabronione prawem, jednak według wielu ekspertów mimo wszystko może naruszać prawa autorskie. W związku z tym, OpenAI, jak i inne giganty technologiczne zostały pozwane przez wydawców prasy – m.in. przez „The New Tork Times”, „New York Daily News” czy „Chicago Tribune”.
Ostatnio duże kontrowersje wywołało także ogłoszenie nowej wersji GPT-4o, której interfejs głosowy brzmiał łudząco podobnie do aktorki Scarlett Johansson. Gwiazda Hollywood interweniowała w tej sprawie, o czym pisaliśmy w naszym portalu.
Do tych kwestii w imieniu PLLuM odnosi się Aleksandra Tomaszewska z Zespołu Inżynierii Lingwistycznej Instytutu Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN). Jednostka bierze udział w projekcie.
„Tworzenie dobrej jakości modeli językowych wymaga dostępu do dużego zbioru starannie dobranych danych. Poleganie na niewyselekcjonowanych pod kątem choćby licencji tekstach pobranych masowo i automatycznie może powodować słabą jakość modelu, ale też jest dyskusyjne z perspektywy etycznej, a często również prawnej” – komentuje naukowczyni w rozmowie z CyberDefence24.pl.
![Aleksandra Tomaszewska o PLLuM](https://cdn.defence24.pl/2024/07/31/780xpx/cuMFotJ6TuadhspCpIRcIbMnJbHHGa3Y7VePibUZ.md6n.png, https://cdn.defence24.pl/2024/07/31/1920xpx/cuMFotJ6TuadhspCpIRcIbMnJbHHGa3Y7VePibUZ.2rtx.png 2x)
Autor. materiały własne
„Chcemy stworzyć etyczne AI"
Jak zauważa nasza rozmówczyni, trend nieetycznego trenowania AI zaczyna się zmieniać. Widać to m.in. w działaniach OpenAI, które zaczęło pytać wydawców o zgodę i podpisywać z nimi umowy licencyjne.
My chcemy iść inną drogą – przede wszystkim zauważamy gdzieś już tlącą się ideę dążenia do trenowania LLM-ów na danych bardziej „etycznych". Nie jest to jeszcze idea bardzo rozpowszechniona, bo jest to po prostu zadanie trudne i czasochłonne. W projekcie PLLuM podejmujemy to wyzwanie.
Aleksandra Tomaszewska, PAN
Podobne działania prowadzi PLLuM i z właśnie tego powodu autorzy projektu zaczęli wysłać list, w którym zachęcają środowisko twórcze do współpracy. Jak przekazała nam Aleksandra Tomaszewska - pismo trafiło do mniejszych i większych wydawnictw, instytucji kultury i instytucji edukacyjnych, stowarzyszeń, autorek i autorów blogów, stron internetowych.
„Do budowy otwartego modelu językowego do wszelkich zastosowań, w tym komercyjnych, korzystamy z danych, które mają odpowiednie licencje i które możemy włączyć do zbioru uczącego zgodnie z obowiązującym prawem” – podkreśla naukowczyni w rozmowie z CyberDefence24.pl
„Chcemy »przedstawić się« wydawcom i nawiązać kontakt. Jeśli jest wola rozmów z nami ze strony wydawcy, a te rozmowy do niczego nie zobowiązują, kontynuujemy nasz kontakt i proponujemy podpisanie umów licencyjnych” – precyzuje nasza rozmówczyni.
Na jakich tekstach trenowany jest PLLuM?
Na stronie internetowej PLLuM można przeczytać, że szkolenie polskiego modelu AI zaczęło się w czerwcu i potrwa do końca września. Informacje te potwierdza badaczka IPI PAN:
„Rozpoczęliśmy etap trenowania na tekstach zgromadzonych przez lata przez naszych konsorcjantów (Politechnikę Wrocławską, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Naukową i Akademicką Sieć Komputerową, Ośrodek Przetwarzania Informacji oraz Uniwersytet Łódzki) oraz zebranych w trakcie realizacji projektu. Te treści poddaliśmy gruntownej selekcji, deduplikacji (eliminowanie powtarzających się części w zbiorze danych – red.) i weryfikacji, również z uwzględnieniem istotnych kwestii licencyjnych”.
Ponieważ proces pozyskiwania tekstów od wydawców jest „czasochłonny i pełen wyzwań” PLLuM zdecydowało się zbierać te materiały przez cały czas trwania projektu i uzględniać je w dalszych pracach.
Jak dodaje Tomaszewska, PLLuM jest też szkolone na tekstach dostępnych w domenie publicznej czy na innych, odpowiednich licencjach Creative Commons, a także na publikacjach otrzymanych od wydawców czy różnych instytucji – tylko za ich zgodą i na podstawie umów licencyjnych, których treść jest wypracowana razem z wydawcami.
Więcej o źródłach danych można przeczytać na blogu dotyczącym projektu.
Szczegółowa analiza prawna
Naukowczyni przekazała nam, że zanim rozpoczęło się trenowanie polskiego modeli językowego, zespół przeprowadził szczegółową analizę bieżącego stanu prawnego, w tym ustawy o sztucznej inteligencji i dyrektywy UE w sprawie praw autorskich i pokrewnych na jednolitym rynku cyfrowym.
„Na tej podstawie określiliśmy, jakie dane mogą być wykorzystywane w procesach wstępnego uczenia i dostrajania modelu” – podkreśla nasza rozmówczymi.
Generowanie tekstów jak matura z historii
Tomaszewska tłumaczy też, na czym polega trenowanie polskiego modelu sztucznej inteligencji. „Zebrane dane mogą być użyte do »uczenia« PLLuM-a – mówiąc prostym językiem, model zapozna się z nimi i z nich wyciągnie wiedzę, z której później skorzysta na przykład w zadaniach generatywnych” – opowiada.
Naukowczyni cały proces generowania treści przez AI porównuje do nauki w szkole:
Przez lata studiujemy podręczniki, wynosimy wiadomości z lekcji, a później na przykład na maturze z historii piszemy wypracowanie na temat wydarzeń, o których przeczytałyśmy czy usłyszeliśmy wcześniej. Podobnie działa generatywna sztuczna inteligencja.
Aleksandra Tomaszewska, PAN
Którzy wydawcy zdecydowali się nawiązać współpracę?
Jak usłyszeliśmy - jest jeszcze za wcześnie by poznać konkretne nazwy.
„Możemy zdradzić, że są to różni wydawcy – mniejsi i więksi – którzy przekazali nam publikacje zróżnicowane tematycznie – od historii, przez beletrystykę, aż po żeglarstwo czy pszczelarstwo. Cieszymy się z tego, bo im bardziej zróżnicowane dane będzie znał model, tym lepiej odpowie na potrzeby użytkowniczek i użytkowników modelu” – komentuje Tomaszewska.
„Bardzo liczymy na to, że ta inicjatywa będzie wieloletnia i że nasza współpraca z wydawcami w celu tworzenia dobrej jakości otwartego modelu polskojęzycznego będzie mogła trwać. Jest to krok niezbędny w kierunku etycznego AI” – podsumowuje nasza rozmówczyni.
Wydawcy, instytucje i firmy zainteresowane współpracą z PLLuM mogą zgłosić się przez formularz dostępny TUTAJ.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
Jak odkryto blokady w pociągach Newagu?