Reklama

Technologie

Zbiórka na „polski ChatGPT”. Ten rok będzie kluczowy

Pasjonaci AI zbierają środki na dalszy rozwój modelu Bielik
Pasjonaci AI zbierają środki na dalszy rozwój modelu Bielik
Autor. Oficjalna strona internetowa Bielik.AI

Eksperci ds. sztucznej inteligencji z Fundacji Speakleash, którzy samodzielnie zbudowali polski duży model językowy „Bielik”, szukają wsparcia. Do tej pory była to oddolna inicjatywa pro bono. „Rok 2025 będzie dla nas kluczowy” - mówi CyberDefence24 Sebastian Kondracki, założyciel Fundacji SpeakLeash.

Fundacja Speakleash to organizacja non-profit oraz społeczność open-source, której celem jest rozwój polskiej generatywnej sztucznej inteligencji. Mówimy o grupie pasjonatów, która wspólnie postanowiła zrealizować projekt „Bielika” i stworzyć rodzimy, darmowy LMM.

W sierpniu ub.r. opisywaliśmy uruchomioną przez Fundację SpeakLeash oraz Akademickie Centrum Komputerowe Cyfronet AGH wersję Bielika v2. Twórcy chwalili się wtedy, że posiada 11 miliardów parametrów i ma pod tym względem dorównywać gigantom takim jak Mistral 2 Large (123B) czy LLama 3.1 (405B).

„Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym. Może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku” – mówił CyberDefence24 Szymon Mazurek z ACK Cyfronet AGH.

    O Bielik.AI sami twórcy mówią: „Bielik v2 opiera się na architekturze transformera, będąc modelem typu »decoder-only«, co oznacza, że do przetwarzania danych wejściowych wykorzystuje wyłącznie bloki dekodera. Bielik został opracowany na bazie modelu Mistral-7B, jednak znacząco go rozbudowaliśmy, czyniąc go jednym z najpotężniejszych modeli językowych stworzonych w Polsce”.

      Reklama

      Poszukiwanie środków na rozwój polskiego AI

      Nikogo nie powinno dziwić, że do rozwoju sztucznej inteligencji potrzebne są spore pieniądze. Informowaliśmy na naszych łamach o założeniach powstania Instytutu IDEAS, który ma zajmować się tematami badawczymi wokół AI i nowych technologii. Jednak w rozporządzeniu dotyczącym jego powołania na początek działalności przewidziano tylko 20 mln zł. W skali inwestycji, jakie poczynili giganci technologiczni na ich modele, to kropla w morzu potrzeb.

        Fundacja Speakleash postanowiła iść o krok dalej i uruchomić zbiórkę w serwisie Patronite na swoją - jak do tej pory - działalność pro brono. Jak na razie zebrała łącznie niemal 4,3 tys. zł (stan na poniedziałek 3 lutego br. rano), co daje kwotę ok. 3,6 tys. miesięcznie. Jak ocenili eksperci AI, potrzebują zebrać 10 tys. zł, aby móc zatrudnić 1 osobę, która w pełnym wymiarze godzin będzie mogła koordynować działanie społeczności.

        1700 entuzjastów sztucznej inteligencji

        O cele i założenia projektu zapytaliśmy Sebastiana Kondrackiego, założyciela SpeakLeash.

        Nikola Bochyńska: Ile obecnie osób pracuje nad rozwojem Bielika?

        Sebastian Kondracki: Trudno podać dokładną liczbę. Na Discordzie SpeakLeasha mamy ponad 1700 osób, choć oczywiście nie wszyscy bezpośrednio pracują nad Bielikiem. Obecnie posiadamy kilkanaście zespołów zaangażowanych w różne aspekty projektu.

        Najważniejszy jest główny zespół trenujący, który liczy 10 osób. Około 20 osób pracuje w zespole narzędziowym – zajmują się wyszukiwaniem specyficznych zestawów danych, tworzeniem specjalistycznych testów czy opracowywaniem narzędzi, np. do anotacji danych. Dodatkowo, powstał osobny zespół odpowiedzialny za model typu guardrails. Mamy też grupę, która koncentruje się na przygotowaniu podstaw pod model multimodalny.

        Jeśli doliczymy do tego zespoły zajmujące się zarządzaniem projektem, wdrażaniem Bielika w biznesie oraz wsparciem operacyjnym, liczba osób aktywnie zaangażowanych w rozwój projektu może wynosić od 50 do 80.

        Warto jednak podkreślić, że cała społeczność licząca 1700 osób również ma ogromny wpływ na rozwój Bielika. To trochę jak kibice na meczu piłkarskim – komentują, prowadzą własne badania, testują, promują projekt i tworzą niesamowitą obywatelską społeczność wokół Bielika.

        Będzie projekt „Obywatel Bielik”

        Skąd decyzja o uruchomieniu zbiórki na Patronite, by pozyskać dodatkowe środki na projekt?

        Zbiórka nie jest wynikiem problemów finansowych, ani koniecznością przerwania prac. To przemyślany element naszej strategii i promocji. Chcieliśmy podkreślić, że Bielik to inicjatywa oddolna, niezależna, obywatelska i społeczna – każdy może dołożyć swoją cegiełkę do rozwoju AI w Polsce.

        Co więcej, to dopiero początek takich działań. Przygotowujemy właśnie projekt Obywatel Bielik, w ramach którego udostępnimy oprogramowanie pozwalające każdemu – niezależnie od poziomu zaawansowania technologicznego – aktywnie uczestniczyć w rozwoju modelu.

        W projektach open-source zbiórki tego typu są czymś zupełnie normalnym. Słynne przyciski „Donate” na Wikipedii czy w oprogramowaniu tworzonym przez pasjonatów to standard. Warto pamiętać, że Bielika rozwijają wolontariusze, którzy pracują za darmo, ale czasem potrzebujemy funduszy na zakup specjalistycznego oprogramowania, udział w zagranicznych konferencjach czy inne niezbędne działania.

        Jakie jest zapotrzebowanie finansowe miesięcznie, aby wskazany wyżej zespół mógł zajmować się rozwojem polskiego AI w pełnym, bądź niepełnym wymiarze godzin?

        Szczerze? Nie mamy dokładnych wyliczeń. Planowanie kosztów wymagałoby dodatkowych zasobów, a my wolimy skupić się na rozwoju AI. Na razie nie mamy budżetu na CFO.

        Mówiąc poważnie, obecnie tworzymy w ramach projektu specjalne rady strategiczne i programowe, składające się z ekspertów ze świata biznesu i nauki. Ich zadaniem będzie wskazanie nam kierunku dalszego rozwoju, również pod kątem finansowym.

        Naszym priorytetem jest to, aby Bielik pozostał bezpłatny. Wzorujemy się na modelu Linuxa i Linux Foundation – samo jądro systemu jest darmowe i rozwijane przez społeczność, natomiast poszczególne dystrybucje są realizowane przez różne organizacje, często komercyjne. Podobny model chcielibyśmy przyjąć dla Bielika, zapewniając jego dalszy rozwój i dostępność dla wszystkich.

        Czy ktoś z rządu, Ministerstwa Cyfryzacji, bądź inny podmiot kontaktował się z państwem w kwestii spotkania lub wsparcia projektu finansowo, bądź w inny sposób?

        Jesteśmy w stałym kontakcie z Ministerstwem Cyfryzacji i realizujemy wspólne inicjatywy – głównie w obszarze raportów, analiz oraz otwierania danych do trenowania modeli AI.

        Nie prowadzimy jednak rozmów o wsparciu finansowym, ponieważ sami nie podjęliśmy jeszcze tego tematu. Dlaczego? Chcemy zachować pełną niezależność i skupić się na tym, co najważniejsze: rozwoju modeli, narzędzi i przetwarzaniu danych. Każde wsparcie instytucjonalne czy grant wiązałoby się z dużą ilością formalności i biurokracji, na które obecnie nie jesteśmy gotowi.
        Sebastian Kondracki, założyciel SpeakLeash

        Dlatego nasza strategia finansowania opiera się przede wszystkim na zbiórkach obywatelskich oraz wsparciu sponsorów i mecenasów. Chcemy, aby zespół rozwijał się w sposób naturalny, a kluczowym priorytetem pozostaje dla nas jedno: dopracowanie Bielika, tak aby stał się jednym z bardziej zaawansowanych europejskich modeli AI. Bez tego żadne inne działania nie będą miały sensu.

          Reklama

          „Duży” Bielik i „małe” Bieliki

          Jakie macie państwo założenia, cele, harmonogram działań, jeśli chodzi o rozwój modelu w 2025 roku?

          Po pierwsze, ruszy inicjatywa Obywatel Bielik, czyli społecznościowe zbieranie, opisywanie oraz annotowanie zdjęć, obrazów i skanów. Dzięki temu, już na początku 2025 roku będziemy mogli rozpocząć trening modelu multimodalnego.

          Po drugie, planujemy wypuścić „małe” Bieliki – modele o wielkości 1.5B i 3B parametrów, które będą idealne do szybkiego fine-tuningu, przy minimalnym zapotrzebowaniu na moc obliczeniową GPU.

          Kolejnym krokiem będzie Bielik Guardrails – specjalna wersja modelu pełniąca funkcję „ochroniarza” do zadań specjalnych, dbająca o bezpieczeństwo i zgodność generowanych treści.

          Warto jednak pamiętać, że Bielik i SpeakLeash to nie tylko modele. Pod koniec 2024 roku opublikowaliśmy raport „Użyteczność biznesowa dużych modeli językowych”, który cieszy się ogromnym zainteresowaniem. Obecnie pracujemy nad jego rozszerzoną wersją.

          Równolegle rozwijamy aplikację mobilną i nowy interfejs czatu, aby ułatwić użytkownikom dostęp do naszych modeli i narzędzi.

          Może zabrzmi to odważnie, ale Spichlerz i Bielik to jeden z największych europejskich projektów open-source związanych z AI, oferujący szeroki wachlarz innowacyjnych rozwiązań. Rok 2025 będzie dla nas kluczowy w dalszym rozwijaniu tej inicjatywy.
          Sebastian Kondracki dla CyberDefence24

          Na jakich źródłach i danych był do tej pory trenowany Bielik?

          Główne źródła danych to teksty dostępne na otwartych licencjach, takie jak polska legislacja, czyli ustawy i akty prawne, orzecznictwo sądów powszechnych, Wikipedia, Projekt Gutenberg oraz zasoby publikowane przez polskie ośrodki naukowe itp. Dodatkowo, dane z repozytoriów typu Common Crawl zostały przez nas dokładnie sklasyfikowane pod względem jakości oraz sprawdzone pod kątem regulaminów i zgodności z ich warunkami użytkowania, aby upewnić się, że mogą być legalnie wykorzystane do treningu.

          Obecnie pracujemy nad rozszerzeniem zasobów treningowych o dane od wydawców – pierwsi z nich już przekazali swoje materiały. Kolejnym kluczowym aspektem jest integracja dokumentacji wymaganej dla regulacji AI Act. Ze względu na dużą skalę danych oraz proces wdrażania poszczególnych regulacji, zajmie to jednak jeszcze trochę czasu.

          Mimo że jesteśmy otwartym projektem, entuzjastami i pasjonatami AI, to większość z nas na co dzień pracuje w biznesie. Mamy wysoką świadomość związaną z compliance, ochroną danych osobowych oraz procedurami regulacyjnymi, dlatego bardzo mocno dbamy o obszar zarządzania danymi i zgodność z przepisami. Dodatkowo, w naszych zespołach merytorycznych nie ma wyłącznie osób technicznych. Posiadamy kilkuosobowy zespół prawników, praktyków na co dzień zajmujących się tematyką związaną z regulacjami i ochroną danych.

          Dziękuję za rozmowę.

          Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

          Reklama
          Reklama

          Jak odkryto blokady w pociągach Newagu?

          YouTube cover video

          Komentarze

            Reklama