Technologie
Polski model językowy PLLuM trenowany na książkach? "Bez nerwów"
Trwają prace nad projektem PLLuM, którego celem jest stworzenie otwartego polskiego modelu językowego. Naukowcy wysłali do wydawnictw pisma, w których zachęcają do współpracy w związku z trenowaniem sztucznej inteligencji. Krok ten wzbudził mieszane reakcje.
PLLuM to polski duży model językowy, nad którym pracuje sześć jednostek naukowych. Ma powstać do końca 2024 roku.
Dziennikarka Sylwia Czubkowska udostępniła w portalu X zdjęcie dokumentu, które zespół pracujący nad PLLuM ma rozsyłać m.in. do wydawców książek.
W piśmie podpisanym przez prof. Macieja Piaseckiego, koordynatora projektu oraz prof. Macieja Ogrodniczuka, przewodniczącego Rady Konsorcjum PLLuM, naukowcy zachęcają do wzięcia udziału w projekcie przez „zasilenie modelu (sztucznej inteligencji – red.) tekstami różnego typu i z różnych dziedzin”.
Zespół PLLuM zachęca do współpracy wydawnictwa, instytucje edukacyjne, naukowe i artystyczne.
Takie wiadomości do wydawców książek wysyła PLLuM, czyli twórcy polskiego wielkiego modelu językowego.
— Sylwia Czubkowska (@sylvcz) July 25, 2024
Trzy wydawnictwa się odezwały trochę ze strachem, trochę z oburzem, że AI chcą na treściach książek trenować.
Wszystkim odpisuję to samo: bez nerwów, to dobry sygnał.
1. pic.twitter.com/mNHASyu6xb
Czytaj też
Trenowanie AI na książkach? „Bez nerwów"
Jak pisze Sylwia Czubkowska – odezwały się do niej trzy wydawnictwa, które były wystraszone i oburzone faktem, że PLLuM chce trenować AI na ich książkach. „Wszystkim odpisuję to samo: bez nerwów, to dobry sygnał” - uspokaja dziennikarka.
Dziennikarka zaznacza, że giganty technologiczne, takie jak OpenAI, Google, czy Meta najczęściej trenują swoje modele AI bez zgody twórców. Nie jest to zabronione prawem, ale bardzo kontrowersyjne, m.in. w związku z prawem autorskim i ochroną danych osobowych.
Giganty technologiczne zostały już za granicą wielokrotnie pozwane w związku z zarzutem łamania prawa autorskiego, o czym pisaliśmy na łamach CyberDefence24.
Czytaj też
PLLuM: „Współpraca zawsze za zgodą"
Jak zaznaczają autorzy projektu na stronie internetowej - współpraca z wydawcami jest dla nich najważniejsza, a odbywa się zawsze za ich zgodą i zgodnie z prawem.
„Jeżeli wydawca jest zainteresowany współpracą, każdorazowo proponujemy podpisanie umowy licencyjnej, która określa zasady korzystania z przekazanych danych, w tym pola eksploatacji danych” – deklarują naukowcy, stojący za polskim modelem.
Czytaj też
Trenowanie AI wymaga danych
„Sztuczna inteligencja jest napędzana danymi” - podkreślił Europejski Inspektor Ochrony Danych dr hab. Wojciech Wiewiórowski, podczas konferencji UODO, na której byliśmy obecni.
Do wytrenowania generatywnego modelu językowego potrzeba tysięcy tekstów – jak najlepszej jakości, jak najbardziej różnorodnej. Dzięki temu chatbot będzie w mniejszym stopniu skłonny do halucynacji i dyskryminacji. Stanie się też bardziej wszechstronny, a tym samym użyteczny.
Zdają sobie z tego sprawę także twórcy PLLuM, dlatego zachęcają wydawnictwa do podjęcia współpracy. Oczywiście korzystanie z cudzych danych zawsze powinno przebiegać za zgodą twórców i z poszanowaniem prawa ochrony danych osobowych.
Czytaj też
Kiedy skorzystamy z PLLuM?
Na stronie internetowej projektu możemy przeczytać, że naukowcy od czerwca do września prowadzą „bazowy trening modelu dostrojonego do różnych zadań”. Natomiast PLLuM ma mieć swoją premierę w grudniu bieżącego roku.
Zapytaliśmy przedstawicieli PLLuM o szczegóły związane z trenowaniem własnego modelu sztucznej inteligencji. Czekamy na odpowiedź.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].