Reklama

Technologie

Polski duży model językowy. PLLuM nie będzie jak ChatGPT

Jaki będzie polski duży model językowy PLLuM?
Jaki będzie polski duży model językowy PLLuM?
Autor. Growtika/ Unsplash

PLLuM to polski duży model językowy, nad którym pracuje sześć jednostek naukowych. Ma powstać do końca 2024 roku. „Naszym celem nie jest stworzenie drugiego ChatuGPT, czyli modelu, który będzie np. rozwiązywał za uczniów zadania i za studentów zdawał testy” - mówi CyberDefence24 dr Inez Okulska, członkini zespołu projektowego.

W grudniu 2023 roku NASK ogłosił, że sześć wiodących jednostek naukowych z obszaru AI oraz przetwarzania języka naturalnego stworzy polski duży model językowy nazwany PLLuM (Polish Large Language Universal Model). Trenowany jest na treściach głównie polskojęzycznych, podobnie jak oparty na nim inteligentny asystent.

Projekt będą realizować: Politechnika Wrocławska (lider konsorcjum), Państwowy Instytut Badawczy NASK, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki PAN, Uniwersytet Łódzki oraz Instytut Slawistyki PAN.

Czytaj też

Reklama

Wątpliwości ws. projektu?

Dziennik „Puls Biznesu” przytoczył ostatnio słowa wicepremiera i ministra cyfryzacji Krzysztofa Gawkowskiego z posiedzenia sejmowej podkomisji stałej ds. sztucznej inteligencji i przejrzystości algorytmów. 

„Chciałbym, żeby sam program przynosił efekty, żeby nie było tak, że (…) wydamy dużo pieniędzy, ale na koniec będziemy w sytuacji, w której i tak nas wszyscy inni wyprzedzą, czyli okaże się, że zbudowaliśmy coś, co jest na rynku całkowicie nie w pierwszej lidze, nawet nie w drugiej. Z tym mam największe wątpliwości - skomentował przedstawiciel rządu.

Z kolei Radosław Nielek, dyrektor Naukowej i Akademickiej Sieci Komputerowej Państwowego Instytutu Badawczego (NASK-PIB) mówił, że „wątpliwości mogą być zasadne”, jeśli weźmie się pod uwagę, ile środków przeznaczono na ChatGPT.

Czytaj też

Reklama

Finansowanie projektu

Konsorcjum otrzymało zlecenie realizacji zadania stworzenia polskiego dużego modelu językowego do końca 2024 roku.

Dr Inez Okulska odnosi się również do kwestii, czy PLLuM można określić „polskim ChatemGPT”. W tym aspekcie okazuje się, że przede wszystkim istotne są czynniki finansowe.

„Tworzony przez nas model to nie polski chatGPT, sensu stricte, bo jako żywo 14,5mln złotych to nie dziesiątki miliardów, które otrzymywało OpenAI. Naszym celem nie jest też stworzenie drugiego ChatuGPT, czyli modelu, który będzie np. rozwiązywał za uczniów zadania i za studentów zdawał testy - w tym sensie z kolei nie potrzebujemy aż takich środków, ani aż takiej ilości danych »encyklopedycznych« - objaśnia ekspertka.

Reklama

Polskie realia modelu językowego

Dr Inez Okulska dodaje, że zespół pracujący nad polskim dużym modelem językowy skupia się na danych i realiach polskojęzycznych oraz na zadaniu wspomagania spraw urzędowych.

„Wówczas sam model służy jako interfejs pomiędzy zapytaniem od użytkownika, zadanym w szerokiej gamie rejestrów języka polskiego - poprawnie lub nie - a solidną bazą wiedzy, stworzoną we współpracy z administracją publiczną, tak by taki hybrydowy model mógł odpowiadać rzetelnie, zrozumiale, poprawnie po polsku, a nie kalkami ze składni anglosaskich; oraz bezpiecznie” - podkreśla dla CyberDefence24.pl.

PLLuM ma działać na bezpłatnej, otwartoźródłowej licencji, jednocześnie odpowiadając wymogom rynkowym. Model, jako obiekt badań naukowych, ma być dostępny dla wszystkich: przedsiębiorców i badaczy, po to by można było - łącząc siły czy środki - rozwijać go dalej, tworząc jeszcze większy zakres zadań, które będzie mógł wykonać. Jej zdaniem „każdy z tych aspektów jest na tyle wartościowy, że już z tego powodu zasługuje na poparcie”.

„Na które szczerze liczymy w kraju - tym bardziej, że projekt budzi żywe, pozytywne zainteresowanie również za granicą, m.in wśród twórców innych narodowych LLMów w Hiszpanii czy Izraelu” - mówi nam Inez Okulska.

Wzorem nie jest ChatGPT

Podsumowuje, że zespół finalnie chciałby powiedzieć, iż „Polacy nie gęsi, swój porządny, wielkoskalowy, dialogowy LLM mają”, a nie właśnie ChatGPT, szczególnie zważając na jego ostatnie problemy (więcej na ten temat pisaliśmy w tym tekście).

„Całość projektu ma być przeprowadzona zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji, w tym przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych. Istotną rolę odegra tu więc również Krajowe Centrum Doskonałości Danych z siedzibą w NASK-PIB” - zaznaczał NASK PIB, ogłaszając w grudniu start projektu.

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama

Komentarze

    Reklama