Petabajty polskiej kultury. Co z ochroną narodowego dziedzictwa?

Autor. Maiemaie/Wikimedia Commons/CC0
Środki z Funduszy Europejskich, przekazane przez Ministerstwo Cyfryzacji, na digitalizację kultury znacząco poszerzą dostęp do dziedzictwa narodowego. Obok upowszechniania zasobów kultury kluczowe staje się zapewnienie ich długoterminowego bezpieczeństwa.
Cyfryzacja zasobów kultury to nie tylko krok w stronę powszechnego dostępu do dziedzictwa narodowego, ale również poważne wyzwanie związane z jego trwałym zabezpieczeniem. Nowe środki finansowe (ponad 440 mln zł) umożliwią realizację dziesięciu dużych projektów digitalizacyjnych, wśród których kluczową rolę odegra Biblioteka Narodowa.
Tego typu przedsięwzięcia wiążą się z koniecznością przetwarzania i przechowywania ogromnych ilości danych. W czasach rosnących zagrożeń cyfrowych oraz konfliktów zbrojnych, takich jak wojna w Ukrainie, równie istotne jak udostępnianie zasobów staje się pytanie o to, jak skutecznie je chronić przed utratą, kradzieżą czy zniszczeniem.
O skali wyzwań, jakie stoją dziś przed instytucjami kultury, kulisach digitalizacji i o tym, co oznacza 250 petabajtów danych w praktyce, rozmawiamy z Grzegorzem Zajączkowskim, liderem cyfryzacji Komisji Europejskiej na Polskę i ekspertem Ministerstwa Cyfryzacji.
Mikołaj Rogalewicz, CyberDefence24: Cyfryzacja kultury brzmi jak szansa, ale to też ogromna odpowiedzialność. Jak wygląda rzeczywista skala danych, z jakimi mierzą się dziś instytucje i jakie wyzwania to ze sobą niesie?
Grzegorz Zajączkowski: Bardzo wiele instytucji posiada ogromne zbiory. Mówię tutaj o muzeach, archiwach państwowych, bibliotekach, ale także instytucjach kultury, np. teatrach muzycznych, które mają własne archiwa dźwiękowe i wizualne. Uniwersytety również, weźmy choćby Wydział Konserwacji Zabytków w Krakowie, który dysponuje dokumentacją fresków i innych dzieł, które warto udostępnić.
Wyzwania, przed którymi stoimy, to przede wszystkim digitalizacja, ponowne wykorzystanie oraz długoterminowe przechowywanie tych zasobów. Szacujemy, że potencjał zasobów cyfrowych kultury w Polsce to dziś około 250 petabajtów. I cały czas rośnie. Równolegle szukamy metod ich zabezpieczania i przechowywania. Nawet przeniesienie kroniki z punktu A do punktu B może zająć miesiące. A jeden zdigitalizowany film to minimum 200 terabajtów danych!
Czy przy tak ogromnej skali danych cyfrowych kultura staje się dziś jednym z najbardziej wymagających obszarów, jeśli chodzi o przechowywanie i zarządzanie zasobami?
Zdecydowanie! Dla porównania, takie platformy jak Ninateka czy Cyfrowa TVP, która lada moment udostępni 2 tysiące filmów, to już naprawdę grube petabajty danych. Dlatego musimy mieć dobrze przemyślany system kopii zapasowych. Biblioteka Narodowa ma cztery kopie zasobów cyfrowych: dwie lokalne i dwie zewnętrzne. To bardzo dobry przykład odpowiedniego zabezpieczenia.
Czytaj też
Zabezpieczenie dziedzictwa
W historii wielokrotnie dochodziło do sytuacji, w których cenne dzieła sztuki i kultury bezpowrotnie ginęły - chociażby w czasie II wojny światowej. Dziś, dzięki cyfryzacji, mamy realną szansę, by zabezpieczyć nasze dziedzictwo na wypadek kryzysów czy konfliktów zbrojnych.
Tak, to właśnie jeden z kluczowych powodów, dla których digitalizacja ma dziś tak duże znaczenie. Gdy wybuchła wojna w Ukrainie, wiele instytucji musiało w pośpiechu ewakuować swoje zasoby cyfrowe. Dane trafiały do różnych ośrodków publicznych, co było trudne i czasochłonne.
W Polsce jesteśmy lepiej przygotowani. Nasze dane są stosunkowo dobrze skoncentrowane, co znacząco ułatwia ich zabezpieczenie. Projekt KRONIK@ (Krajowe Repozytorium Obiektów Nauki i Kultury - przyp. red.) jest dobrym przykładem - zasoby są przechowywane w jednym, spójnym systemie, co pozwala na ich szybką ewakuację w sytuacji zagrożenia. Dzięki temu nie musimy ich szukać i zbierać oddzielnie z każdej instytucji.
Czytaj też
Zasoby kultury a sztuczna inteligencja
Jakie wyzwania wiążą się z wykorzystaniem zdigitalizowanych zasobów kultury przez narzędzia oparte na sztucznej inteligencji? Chatboty często wykorzystują czy nawet uczą się na ogólnodostępnych danych z internetu. Czy istnieje ryzyko naruszenia praw autorskich lub nieuprawnionego wykorzystania tych treści w procesie trenowania modeli językowych?
To bardzo ważna kwestia. Zasoby, takie jak KRONIK@, są zróżnicowane pod względem dostępności. Część z nich znajduje się w domenie publicznej, ale niekoniecznie nadaje się do trenowania współczesnych modeli językowych. Mówimy tu często o tekstach z XVIII czy XIX wieku, które, choć bezcenne kulturowo, mogą sprawić, że chatbot zacznie przemawiać językiem w stylu: „Szanowny waćpanie, chciałbym tobie poinformować…”
Jeśli celem jest stworzenie modelu humanistyki cyfrowej, który integruje kulturę z technologią, to świetnie, ale trzeba pamiętać, że nie wszystkie zasoby są dostępne zewnętrznie. Wiele materiałów nie jest objętych wolną licencją. Są chronione prawem autorskim i nie mogą być wykorzystywane do trenowania modeli AI bez odpowiednich zgód. A że chatboty uczą się na ogólnodostępnych danych z internetu, to ten problem dotyczy nas wszystkich - zarówno instytucji, jak i użytkowników.
Jakie są obecnie ograniczenia w dostępie modeli sztucznej inteligencji do zdigitalizowanych zasobów kultury? Czy w praktyce AI korzysta z takich treści, czy raczej opiera się na ogólnodostępnych materiałach z internetu? Jakie to niesie ryzyka?
Obecnie większość chatbotów i modeli językowych uczy się na treściach ogólnodostępnych w internecie - często są to wpisy z mediów społecznościowych, takich jak X, czy materiały z serwisów informacyjnych. To rodzi konkretne zagrożenia. Zdarzały się przypadki, w których modele uczyły się na niezweryfikowanych źródłach, co prowadziło do rozpowszechniania dezinformacji.
Dlatego dziś kluczowe jest zbudowanie trzech fundamentów:
- rzetelnego zasobu danych do uczenia AI - mogą to być m.in. zbiory Biblioteki Narodowej i innych instytucji publicznych, zwłaszcza te dostępne w domenie publicznej;
- nowego podejścia do licencjonowania treści - twórcy powinni mieć możliwość świadomego wyrażenia zgody na wykorzystanie ich materiałów w procesach treningowych AI;
- regulacji prawnych na poziomie Unii Europejskiej - już teraz trwają prace nad zasadami etycznymi uczenia modeli. Komisja Europejska opublikowała pierwszy projekt regulacji, który ma ucywilizować ten obszar.
Czytaj też
Zasady etyczne i bezpieczeństwo, a rozwój AI
Wiele mówi się dziś o potrzebie wprowadzenia zasad etycznych w rozwoju i trenowaniu sztucznej inteligencji, zwłaszcza w kontekście ochrony praw autorskich, prywatności czy odpowiedzialności za treści. Ale pojawia się też pytanie, czy tego rodzaju regulacje, choć potrzebne, nie będą jednocześnie spowalniać innowacji i rozwoju technologii. Jak znaleźć równowagę pomiędzy postępem a bezpieczeństwem?
Mamy tu do czynienia z klasycznym konfliktem wartości. Z jednej strony stoi wolność twórcza i rozwój technologii. Z drugiej - bezpieczeństwo, odpowiedzialność i etyka. Modele opracowywane przez duże, globalne firmy (np. Veo 3) potrafią generować efektowne i zaawansowane treści, ale jednocześnie potrafią też odmówić wykonania pewnych poleceń, jeśli naruszają one zasady etyczne.
Inaczej wygląda to w przypadku modeli tworzonych w tzw. krajach trzecich, gdzie często nie obowiązują żadne ograniczenia ani filtry etyczne. Takie systemy są w stanie wygenerować niemal wszystko - bez względu na konsekwencje.
I tu zaczyna się problem. Oczywiście można próbować blokować tego typu treści na poziomie ich wyświetlania, ale to z kolei wiąże się z ingerencją w media społecznościowe. W praktyce jest to bardzo trudne.
W sytuacji, gdy sztuczna inteligencja może zostać wykorzystana do tworzenia deepfake’ów czy fake newsów z udziałem realnych osób, nasuwa się pytanie o mechanizmy ochrony. Jakie powinny powstać narzędzia, by skutecznie chronić użytkowników i instytucje?
Potrzebujemy systemu szybkiego reagowania. Jeżeli ktoś stworzy deepfake lub fake news z moim udziałem, chcę mieć możliwość natychmiastowego usunięcia tego z sieci. W mediach tradycyjnych istnieją już takie mechanizmy - teraz trzeba je wdrożyć również w świecie AI. Obecnie to korporacje technologiczne decydują o granicach i zasadach działania tych systemów.
Czy są już kraje, które wprowadzają konkretne regulacje dotyczące AI?
Tak, przykładem może być Dania, która pracuje nad bardzo restrykcyjnymi regulacjami w zakresie sztucznej inteligencji. Myślę, że w najbliższym czasie podobne działania podejmą także Stany Zjednoczone, ponieważ skala zjawiska dezinformacji generowanej przez AI zaczyna być zauważalna również na najwyższych szczeblach decyzyjnych.
Potrzebujemy jasnych, systemowych regulacji dotyczących rozwoju i wykorzystania sztucznej inteligencji. Obecnie brakuje skutecznych mechanizmów prawnych, które chroniłyby społeczeństwo przed nadużyciami i dezinformacją.
Dziękuję za rozmowę.
Czytaj też
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
WYCIEKI DANYCH z firm. JAK ZAPOBIEGAĆ wynoszeniu danych przez pracowników?
Materiał sponsorowany