- WIADOMOŚCI
Petabajty polskiej kultury. Co z ochroną narodowego dziedzictwa?
Środki z Funduszy Europejskich, przekazane przez Ministerstwo Cyfryzacji, na digitalizację kultury znacząco poszerzą dostęp do dziedzictwa narodowego. Obok upowszechniania zasobów kultury kluczowe staje się zapewnienie ich długoterminowego bezpieczeństwa.
Autor. Maiemaie/Wikimedia Commons/CC0
Cyfryzacja zasobów kultury to nie tylko krok w stronę powszechnego dostępu do dziedzictwa narodowego, ale również poważne wyzwanie związane z jego trwałym zabezpieczeniem. Nowe środki finansowe (ponad 440 mln zł) umożliwią realizację dziesięciu dużych projektów digitalizacyjnych, wśród których kluczową rolę odegra Biblioteka Narodowa.
Tego typu przedsięwzięcia wiążą się z koniecznością przetwarzania i przechowywania ogromnych ilości danych. W czasach rosnących zagrożeń cyfrowych oraz konfliktów zbrojnych, takich jak wojna w Ukrainie, równie istotne jak udostępnianie zasobów staje się pytanie o to, jak skutecznie je chronić przed utratą, kradzieżą czy zniszczeniem.
O skali wyzwań, jakie stoją dziś przed instytucjami kultury, kulisach digitalizacji i o tym, co oznacza 250 petabajtów danych w praktyce, rozmawiamy z Grzegorzem Zajączkowskim, liderem cyfryzacji Komisji Europejskiej na Polskę i ekspertem Ministerstwa Cyfryzacji.
Mikołaj Rogalewicz, CyberDefence24: Cyfryzacja kultury brzmi jak szansa, ale to też ogromna odpowiedzialność. Jak wygląda rzeczywista skala danych, z jakimi mierzą się dziś instytucje i jakie wyzwania to ze sobą niesie?
Grzegorz Zajączkowski: Bardzo wiele instytucji posiada ogromne zbiory. Mówię tutaj o muzeach, archiwach państwowych, bibliotekach, ale także instytucjach kultury, np. teatrach muzycznych, które mają własne archiwa dźwiękowe i wizualne. Uniwersytety również, weźmy choćby Wydział Konserwacji Zabytków w Krakowie, który dysponuje dokumentacją fresków i innych dzieł, które warto udostępnić.
Wyzwania, przed którymi stoimy, to przede wszystkim digitalizacja, ponowne wykorzystanie oraz długoterminowe przechowywanie tych zasobów. Szacujemy, że potencjał zasobów cyfrowych kultury w Polsce to dziś około 250 petabajtów. I cały czas rośnie. Równolegle szukamy metod ich zabezpieczania i przechowywania. Nawet przeniesienie kroniki z punktu A do punktu B może zająć miesiące. A jeden zdigitalizowany film to minimum 200 terabajtów danych!
Czy przy tak ogromnej skali danych cyfrowych kultura staje się dziś jednym z najbardziej wymagających obszarów, jeśli chodzi o przechowywanie i zarządzanie zasobami?
Zdecydowanie! Dla porównania, takie platformy jak Ninateka czy Cyfrowa TVP, która lada moment udostępni 2 tysiące filmów, to już naprawdę grube petabajty danych. Dlatego musimy mieć dobrze przemyślany system kopii zapasowych. Biblioteka Narodowa ma cztery kopie zasobów cyfrowych: dwie lokalne i dwie zewnętrzne. To bardzo dobry przykład odpowiedniego zabezpieczenia.
Zabezpieczenie dziedzictwa
W historii wielokrotnie dochodziło do sytuacji, w których cenne dzieła sztuki i kultury bezpowrotnie ginęły - chociażby w czasie II wojny światowej. Dziś, dzięki cyfryzacji, mamy realną szansę, by zabezpieczyć nasze dziedzictwo na wypadek kryzysów czy konfliktów zbrojnych.
Tak, to właśnie jeden z kluczowych powodów, dla których digitalizacja ma dziś tak duże znaczenie. Gdy wybuchła wojna w Ukrainie, wiele instytucji musiało w pośpiechu ewakuować swoje zasoby cyfrowe. Dane trafiały do różnych ośrodków publicznych, co było trudne i czasochłonne.
W Polsce jesteśmy lepiej przygotowani. Nasze dane są stosunkowo dobrze skoncentrowane, co znacząco ułatwia ich zabezpieczenie. Projekt KRONIK@ (Krajowe Repozytorium Obiektów Nauki i Kultury - przyp. red.) jest dobrym przykładem - zasoby są przechowywane w jednym, spójnym systemie, co pozwala na ich szybką ewakuację w sytuacji zagrożenia. Dzięki temu nie musimy ich szukać i zbierać oddzielnie z każdej instytucji.
Zasoby kultury a sztuczna inteligencja
Jakie wyzwania wiążą się z wykorzystaniem zdigitalizowanych zasobów kultury przez narzędzia oparte na sztucznej inteligencji? Chatboty często wykorzystują czy nawet uczą się na ogólnodostępnych danych z internetu. Czy istnieje ryzyko naruszenia praw autorskich lub nieuprawnionego wykorzystania tych treści w procesie trenowania modeli językowych?
To bardzo ważna kwestia. Zasoby, takie jak KRONIK@, są zróżnicowane pod względem dostępności. Część z nich znajduje się w domenie publicznej, ale niekoniecznie nadaje się do trenowania współczesnych modeli językowych. Mówimy tu często o tekstach z XVIII czy XIX wieku, które, choć bezcenne kulturowo, mogą sprawić, że chatbot zacznie przemawiać językiem w stylu: „Szanowny waćpanie, chciałbym tobie poinformować…”
Jeśli celem jest stworzenie modelu humanistyki cyfrowej, który integruje kulturę z technologią, to świetnie, ale trzeba pamiętać, że nie wszystkie zasoby są dostępne zewnętrznie. Wiele materiałów nie jest objętych wolną licencją. Są chronione prawem autorskim i nie mogą być wykorzystywane do trenowania modeli AI bez odpowiednich zgód. A że chatboty uczą się na ogólnodostępnych danych z internetu, to ten problem dotyczy nas wszystkich - zarówno instytucji, jak i użytkowników.
Jakie są obecnie ograniczenia w dostępie modeli sztucznej inteligencji do zdigitalizowanych zasobów kultury? Czy w praktyce AI korzysta z takich treści, czy raczej opiera się na ogólnodostępnych materiałach z internetu? Jakie to niesie ryzyka?
Obecnie większość chatbotów i modeli językowych uczy się na treściach ogólnodostępnych w internecie - często są to wpisy z mediów społecznościowych, takich jak X, czy materiały z serwisów informacyjnych. To rodzi konkretne zagrożenia. Zdarzały się przypadki, w których modele uczyły się na niezweryfikowanych źródłach, co prowadziło do rozpowszechniania dezinformacji.
Dlatego dziś kluczowe jest zbudowanie trzech fundamentów:
- rzetelnego zasobu danych do uczenia AI - mogą to być m.in. zbiory Biblioteki Narodowej i innych instytucji publicznych, zwłaszcza te dostępne w domenie publicznej;
- nowego podejścia do licencjonowania treści - twórcy powinni mieć możliwość świadomego wyrażenia zgody na wykorzystanie ich materiałów w procesach treningowych AI;
- regulacji prawnych na poziomie Unii Europejskiej - już teraz trwają prace nad zasadami etycznymi uczenia modeli. Komisja Europejska opublikowała pierwszy projekt regulacji, który ma ucywilizować ten obszar.
Zasady etyczne i bezpieczeństwo, a rozwój AI
Wiele mówi się dziś o potrzebie wprowadzenia zasad etycznych w rozwoju i trenowaniu sztucznej inteligencji, zwłaszcza w kontekście ochrony praw autorskich, prywatności czy odpowiedzialności za treści. Ale pojawia się też pytanie, czy tego rodzaju regulacje, choć potrzebne, nie będą jednocześnie spowalniać innowacji i rozwoju technologii. Jak znaleźć równowagę pomiędzy postępem a bezpieczeństwem?
Mamy tu do czynienia z klasycznym konfliktem wartości. Z jednej strony stoi wolność twórcza i rozwój technologii. Z drugiej - bezpieczeństwo, odpowiedzialność i etyka. Modele opracowywane przez duże, globalne firmy (np. Veo 3) potrafią generować efektowne i zaawansowane treści, ale jednocześnie potrafią też odmówić wykonania pewnych poleceń, jeśli naruszają one zasady etyczne.
Inaczej wygląda to w przypadku modeli tworzonych w tzw. krajach trzecich, gdzie często nie obowiązują żadne ograniczenia ani filtry etyczne. Takie systemy są w stanie wygenerować niemal wszystko - bez względu na konsekwencje.
I tu zaczyna się problem. Oczywiście można próbować blokować tego typu treści na poziomie ich wyświetlania, ale to z kolei wiąże się z ingerencją w media społecznościowe. W praktyce jest to bardzo trudne.
W sytuacji, gdy sztuczna inteligencja może zostać wykorzystana do tworzenia deepfake’ów czy fake newsów z udziałem realnych osób, nasuwa się pytanie o mechanizmy ochrony. Jakie powinny powstać narzędzia, by skutecznie chronić użytkowników i instytucje?
Potrzebujemy systemu szybkiego reagowania. Jeżeli ktoś stworzy deepfake lub fake news z moim udziałem, chcę mieć możliwość natychmiastowego usunięcia tego z sieci. W mediach tradycyjnych istnieją już takie mechanizmy - teraz trzeba je wdrożyć również w świecie AI. Obecnie to korporacje technologiczne decydują o granicach i zasadach działania tych systemów.
Czy są już kraje, które wprowadzają konkretne regulacje dotyczące AI?
Tak, przykładem może być Dania, która pracuje nad bardzo restrykcyjnymi regulacjami w zakresie sztucznej inteligencji. Myślę, że w najbliższym czasie podobne działania podejmą także Stany Zjednoczone, ponieważ skala zjawiska dezinformacji generowanej przez AI zaczyna być zauważalna również na najwyższych szczeblach decyzyjnych.
Potrzebujemy jasnych, systemowych regulacji dotyczących rozwoju i wykorzystania sztucznej inteligencji. Obecnie brakuje skutecznych mechanizmów prawnych, które chroniłyby społeczeństwo przed nadużyciami i dezinformacją.
Dziękuję za rozmowę.
Zobacz też





Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
Cyfrowy Senior. Jak walczy się z oszustami?