- WIADOMOŚCI
Rodzina modeli PLLuM się powiększa. Udostępniono 11 nowych polskich model
Ministerstwo Cyfryzacji poinformowało o udostępnieniu 11 nowych modeli PLLuM, czyli polskich otwartych modeli językowych projektowanych z myślą o administracji, biznesie i użytkownikach indywidualnych. Nowe modele lepiej rozumieją język urzędowy, obsługują ponad 20 typów tekstów administracyjnych i zostały opublikowane na otwartych licencjach zgodnych z AI Act.
Autor. CyberDefence24
- Nowa rodzina PLLuM obejmuje modele w czterech rozmiarach: 4B, 8B, 12B i 70B, dopasowane do różnych potrzeb technicznych.
- Modele mają wspierać pracę administracji, m.in. w generowaniu dokumentów urzędowych, upraszczaniu języka i obsłudze systemów RAG.
- Dane treningowe objęły około 7 mln tekstów w języku polskim oraz około 80 tys. ręcznie tworzonych instrukcji.
Ministerstwo Cyfryzacji udostępniło 11 nowych modeli PLLuM. To największa dotąd porcja modeli z tej rodziny opublikowana na w pełni otwartych licencjach.
Nowe modele zostały zaprojektowane z myślą o polskim kontekście językowym, prawnym i administracyjnym. Mają lepiej rozumieć zarówno codzienną polszczyznę, jak i język urzędowy, a także wspierać zadania związane z obsługą dokumentów, procedur i komunikacji publicznej.
„PLLuM odnajduje się w polskim kontekście prawnym i kulturowym, precyzyjniej niż modele zagraniczne. Jest otwarty i dostępny dla wszystkich. Już dzisiaj znajduje zastosowanie w sprawach urzędowych, rozmowach w mObywatelu, a także w wielu firmach i jednostkach badawczych. Dzisiaj rozwijamy rodzinę modeli, za co dziękuję całemu konsorcjum HIVE” - podkreślił na konferencji prasowej wiceminister cyfryzacji Dariusz Standerski.
Modele dla administracji i biznesu
Nowe modele PLLuM mają być lepiej przystosowane do pracy w administracji publicznej. Według resortu, potrafią generować teksty w ponad 20 gatunkach urzędowych, wspierać zadania biurowe i operacyjne, rozumieć kontekst procedur administracyjnych oraz upraszczać język urzędowy.
Istotne znaczenie ma także możliwość pracy na wzorach dokumentów prawnych oraz lepsze działanie w systemach opartych na RAG, czyli rozwiązaniach łączących model językowy z wyszukiwaniem informacji w zewnętrznych bazach wiedzy.
Jak wskazują twórcy, nowe modele mają również generować bezpieczniejsze odpowiedzi, m.in. dzięki analizie rzeczywistych interakcji użytkowników w PLLuM Chat.
„Chcemy, żeby PLLuM był coraz lepszy i znajdował zastosowanie w kolejnych miejscach. Zbudowaliśmy nie tylko modele językowe, ale i unikalne kompetencje w polskim ekosystemie AI” – zaznaczył dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK Szymon Łukasik.
Cztery rozmiary modeli
Nowa rodzina PLLuM obejmuje cztery rozmiary modeli: 4B, 8B, 12B i 70B. Każdy z nich odpowiada innym potrzebom oraz możliwościom technicznym użytkowników.
Model 4B jest najmniejszy i najszybszy. Może działać przy ograniczonej mocy obliczeniowej i najlepiej sprawdza się po dostosowaniu do konkretnego zadania.
Modele 8B i 12B stanowią kompromis między szybkością a jakością. Są rekomendowane do wdrożeń produkcyjnych, np. jako silniki w systemach RAG.
Największy model 70B najlepiej radzi sobie ze złożonymi zadaniami i może być wykorzystywany bez dodatkowego dostrajania.
Warianty bazowe, instrukcyjne i dialogowe
Modele 4B, 8B i 12B udostępniono w trzech wariantach: bazowym, instrukcyjnym i dialogowym.
Wariant bazowy przeznaczony jest głównie do eksperymentów oraz dalszego dostrajania. Wariant instrukcyjny służy do wykonywania konkretnych zadań, natomiast wariant dialogowy zawiera zabezpieczenia przed szkodliwymi treściami i jest dostosowany do rozmów z użytkownikami.
Model 70B dostępny jest w wariantach instrukcyjnym i dialogowym.
Zobacz też

Otwarte licencje i dokumentacja zgodna z AI Act
Wszystkie nowe modele PLLuM opublikowano na otwartych licencjach. Dołączono do nich pełną dokumentację zgodną z wymogami AI Act.
Dokumentacja obejmuje opis modeli, źródła danych oraz metody treningu i oceny jakości. Ma to zwiększyć transparentność projektu i ułatwić wykorzystanie modeli przez administrację, firmy, instytucje badawcze oraz niezależnych użytkowników.
Jak trenowano nowe modele
Modele powstały w ramach projektu HIVE AI, realizowanego w 2025 roku przez konsorcjum pod kierownictwem NASK. W projekcie uczestniczyły także ACK Cyfronet AGH, Instytut Podstaw Informatyki PAN, OPI PIB, Instytut Slawistyki PAN, Uniwersytet Łódzki i Politechnika Wrocławska.
Zbiór danych treningowych objął około 7 mln tekstów w języku polskim, wybranych pod kątem jakości, legalności i transparentności źródeł. Dane pochodziły m.in. z umów licencyjnych, domeny publicznej, Monitora Polskiego, Dziennika Ustaw, stenogramów parlamentarnych oraz zasobów na licencjach Creative Commons.
Pretrening zaprojektowano w paradygmacie curriculum learning, czyli stopniowego uczenia modelu od danych prostszych do bardziej złożonych. Na potrzeby dostrajania przygotowano około 17,5 tys. nowych instrukcji organicznych, w tym ponad 6 tys. dialogów wieloturowych.
Łącznie, wraz z danymi z projektu PLLuM z 2024 roku, wykorzystano około 80 tys. ręcznie tworzonych instrukcji.




Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
Krajowy system e-Faktur - co musisz wiedzieć o KSEF?
Materiał sponsorowany