Technologie
#CyberMagazyn: AI zagraża twórczości? „Big Techy biorą wszystko”
Jak pogodzić rozwój AI z prawami twórców? „Wielkie platformy eksploatują dostępne zasoby maksymalnie. Chcą osiągać zyski, nic więcej. Nie chcą płacić i nie myślą o tym, że ludzkość może w przyszłości zostać pozbawiona twórców, którzy np. będą odchodzić z zawodu przez brak wynagrodzenia” – ocenił dr Stanisław Trzciński, przedsiębiorca i menedżer kultury.
Podczas konferencji Cyber24 Day, organizowanej przez naszą redakcję, odbyła się debata poświęcona trenowaniu modeli sztucznej inteligencji i związanym z tym wyzwaniom prawnym oraz etycznym. Eksperci i przedstawiciele branż kreatywnych dyskutowali o konieczności poszanowania praw autorskich i prawa do prywatności oraz o tym, jak duże platformy omijają regulacje.
Jak AI korzysta z naszych danych?
W jaki sposób szkolone są modele sztucznej inteligencji? Jak tłumaczył Jakub Jurowicz, adwokat w Kancelarii Olesiński i Wspólnicy, w procesie tym system AI korzysta z danych osób trzecich na cztery sposoby: w trakcie ich pobierania, czyli scrapowania, później podczas trenowania modelu, następnie w przypadku zapamiętywania przez model danych, a także podczas generacji treści (jeśli model jest generatywny.
„W każdym z tych etapów może dość do naruszenia praw autorskich” – komentował ekspert.
Dokładniej proces szkolenia wyjaśniła Aleksandra Tomaszewska, badaczka w Instytucie Podstaw Informatyki PAN, członkini zespołu PLLuM, który opracowuje polski model sztucznej inteligencji. Odpowiada w nim za koordynację pozyskiwania danych.
„LLM-y uczą się w pre-treningu na ogromnych zbiorach danych i to na tej podstawie generują treści. Później, na instrukcjach są dostrajane do konkretnego użycia. Następnie są wychowywane w procesie tzw. alignmentu, czyli są szkolone na preferencjach” – tłumaczy badaczka.
Czytaj też
Trenowanie sztucznej inteligencji w prawie
Szkolenie modeli AI w kontekście przepisów prawnych nie jest oczywistą kwestią.
Sam Akt o sztucznej inteligencji nie ustala konkretnych zasad dotyczących trenowania AI. Wynika jednak z niego, że systemy sztucznej inteligencji dostępne na rynku unijnym, mają być zgodne z przepisami prawnoautorskimi obowiązującymi w UE. Dotyczy to także dostawców spoza Unii Europejskiej, którzy chcą działać na naszym terytorium.
„Jakie to przepisy? W Polsce mamy ustawę o prawie autorskim, która cały czas pozostaje w mocy. Bardzo istotna jest też dyrektywa ws. prawa autorskiego i praw pokrewnych na jednolitym rynku cyfrowym (dyrektywa DSM - red.), niedawno implementowana w Polsce. Wynika z niej, że jeśli ktoś chce trenować AI w oparciu o czyjeś utwory, musi mieć zgodę twórcy” – tłumaczyła dr Paula Skrzypecka, starsza prawniczka w Creative Legal.
Jest jednak kilka wyjątków od tej reguły. Zasada ta nie dotyczy działalności niekomercyjnej, czyli np. organizacji badawczych czy pozarządowych, które szkolą własne systemy sztucznej inteligencji.
Drugi wyjątek dotyczy działalności zarobkowej. „Nie jest więc tak, że z góry mamy wykluczoną możliwość scrapowania danych w celu wytrenowania modelu, który ma być wykorzystywany komercyjnie. Natomiast są w tej sytuacji dodatkowe warunki, np. możliwości sprzeciwienia się takiej aktywności” – opowiada prawniczka.
Chodzi m.in. o oświadczenia, w których użytkownicy mogą zaznaczyć na stronie internetowej, że nie wyrażają zgody na trenowanie AI na ich danych czy utworach. Nie określono jednak, co dokładnie powinno znajdować się w takiej klauzuli, dlatego ta kwestia jest chętnie obchodzona przez Big Techy.
Jak zaznaczyła ekspertka, dla wielkich firm technologicznych nie ma póki co żadnych konsekwencji za obchodzenie przepisów.
Czytaj też
„Wielkie platformy nie chcą płacić”
W ramach praw autorskich zgodę na wykorzystanie danych utworów do trenowania AI można uwzględnić także w umowie licencyjnej. Wielkie platformy znane są jednak z tego, że często nie zawierają takich umów z artystami. Stąd liczne pozwy, które wiele razy opisywaliśmy w portalu CyberDefence24.pl.
Szybciej i taniej jest po prostu scrapować dane bez pytania kogokolwiek o zgodę. „Wielkie platformy eksploatują dostępne zasoby maksymalnie. Chcą osiągać zyski, nic więcej. Nie chcą płacić i nie myślą o tym, że ludzkość może w przyszłości zostać pozbawiona twórców, którzy np. będą odchodzić z zawodu przez brak wynagrodzenia” – ocenia dr Stanisław Trzciński, przedsiębiorca i menedżer kultury.
Przypomina też, że dyrektywa DSM przeszła w Parlamencie Europejskim zaledwie 30 głosami – dzięki twórcom, którzy namawiali polityków do opowiedzenia się za nowym prawem.
„Proces związany z DSM dopiero w Polsce się zaczął i daje szasnę na porozumienie stron. Mam nadzieję, że platformy zmienią swój model biznesowy w kontekście tantiem i sztucznej inteligencji, bo im także będzie to odpowiadać” – stwierdził ekspert.
Czytaj też
Etyczna sztuczna inteligencja
Według Aleksandry Tomaszewskiej i zespołu PLLuM, szkolenie modeli sztucznej inteligencji z poszanowaniem praw autorskich, czyli w sposób etyczny, jest konieczne. „Sęk w tym, że to wymaga ogromnego wysiłku, czasu i osób, które będą się tym zajmować i oczywiście finansowania” – komentowała.
Badaczka wyjaśniła skąd PLLuM pozyskuje dane. Po pierwsze, z własnych zasobów IPI PAN zgromadzonych przez lata, ale tylko tych, które są dostępne na otwartych licencjach. Jako przykłady badaczka wymieniła Korpus dyskursu parlamentarnego, który został stworzony z przemówień polityków w Sejmie i Senacie, akty prawne.
Drugim źródłem są otwarte dane, które znajdują się w sieci. To np. dane z serwisu gov.pl czy licencjonowane na zasadach Creative Commons. Trzecim umowy podpisane przez PLLuM z wydawcami.
To clue naszego projektu. Udało nam się stworzyć zespół wspaniałych ludzi, którzy kontaktują się z wydawcami i prowadzą z nimi negocjacje, czasami długie. Prosimy o to, żeby nas wesprzeć. Chcemy stworzyć etyczną alternatywę, ale nie stać nas na to, by płacić za dane. Mamy nadzieję, że z czasem się to zmieni. Jeśli otrzymamy zgodę na wykorzystanie danych, zawsze podpisujemy z wydawnictwami umowy licencyjne z odpowiednimi polami eksploatacji. Umowy zawsze podlegają negocjacji.
Aleksandra Tomaszewska, Instytut Podstaw Informatyki Polskiej Akademii Nauk
Inny aspekt etyczny, o którym wspomniała Tomaszewska, to kontrola danych zamieszanych w modelu. „Big Techy biorą wszystko »jak leci«. My mamy weryfikatorów i narzędzie służące filtracji. Kontrolujemy dane na wejściu i na wyjściu. Uważamy, że to jest gwarancja większego bezpieczeństwa” – wyjaśniła.
Ma to ograniczyć stronniczość modelu (bias) oraz generowanie treści szkodliwych, np. nawołujących do przemocy.
Czytaj też
Sztuczna inteligencja w środowisku filmowym
Dr Konrad Michalak, wiceprzewodniczący Zarządu Głównego w Związku Zawodowym Aktorów Polskich (ZZAP) oraz prawnik, opowiedział z kolei o podejściu środowiska filmowego do sztucznej inteligencji.
W Stanach Zjednoczonych po strajku Hollywood wypracowano porozumienie, które środowisko przyjęło z zadowoleniem i na którym mogą wzorować się inne kraje. „Aktor musi wyrazić zgodę na wykorzystanie jego wizerunku i głosu w celu przetworzenia cyfrowego i stworzenia cyfrowej repliki” – tłumaczy dr Michalak.
Zaznaczył, że filmowcy widzą zarówno potencjał, jak i wady rozwoju sztucznej inteligencji. „Boimy się zaniku niektórych profesji, np. aktorów dubbingowych, czy scenarzystów” – przyznał.
Filmowcy obawiają się też, że powszechne wykorzystanie AI spowoduje, iż lobby producentów, będzie chciało zbytnio obniżać koszty produkcji, a tym samym zarobki aktorów i innych osób pracujących przy powstawaniu filmu. „Mamy nadzieję, że w UE powstanie prawo, które pozwoli nam chronić nasze interesy. Pomysłów jest dużo” – dodał.
Czytaj też
Sztuczna inteligencja na rynku muzycznym
Jak przyznał dr Stanisław Trzciński, algorytmy sztucznej inteligencji są obecne na rynku muzycznym już od kilkunastu lat, m.in. w steramingach i muzyce cyfrowej. „Wiele znaków zapytania budzi generatywna sztuczna inteligencja. Niektóre zawody z jej powodu po prostu przestaną istnieć” – przyznał ekspert.
Widzi jednak także zalety w wykorzystaniu generatywnej AI. To demokratyzacja i upowszechnienie produkcji muzyki. „Każdy będzie mógł zostać producentem. Inną kwestią jest zalew rynku sztuczną muzyką i to, które kawałki się przebiją” – stwierdził.
Według dr Trzcińskiego, AI będzie tworzyć prostą muzykę, która części osobom będzie odpowiadać. Natomiast inni odbiorcy jeszcze chętniej sięgać będą po tę, która wzbudza emocję i jest wysokiej jakości, czyli wytworzoną przez człowieka.
Ekspert poruszył też kwestie szkolenia modeli generatywnych na podstawie twórczości muzyków. „Jeśli wpiszemy do dwóch najpopularniejszych aplikacji AI, żeby stworzyły nam muzykę w stylu Kory Jackowskiej i Maanamu, to otrzymamy takie utwory. Są przypadki, kiedy mówimy o czystych plagiatach” – przyznał.
Wyraził też nadzieję, że wkrótce powstanie nowe prawo lub nowelizacja obecnego, tak by godzić interesy twórców, producentów oraz firm i instytucji badawczych.
Czytaj też
Pisarstwo i badania naukowe
Jak tłumaczy Aleksandra Tomaszewska, sztuczna inteligencja generuje treści na podstawie statystki i prawdopodobieństwa, dlatego brakuje im oryginalności. Zwróciła też uwagę, że modele językowe z natury halucynują, czyli generują fałszywe treści.
„Pisarstwo to pewnego rodzaju przelewanie doświadczenia i emocji na papier. W tym aspekcie LLM-y nie są jeszcze w stanie zastąpić człowieka” – oceniła.
Badaczka mówiła też o pozytywnych zastosowaniach dużych modeli językowych, które mogą wesprzeć twórców literackich. To pomoc w generowanemu fabuły, jej ocena, korekta tekstu czy tłumaczenia.
Tomaszewska mówiła też o zastosowaniu sztucznej inteligencji w naukach humanistycznych. „Pracuję jako językoznawczyni i bardzo doceniam obecność narzędzi AI, ich szybkość przetwarzania danych. Używam też narzędzi do generowania przypisów naukowych oraz służących sprawdzeniu, czy w danych nie ma duplikatów. To ułatwianie sobie życia i oszczędność czasu” – opowiada.
Czytaj też
„Idziemy do przodu dzięki ludziom kreatywnym”
Paneliści przypomnieli, że pieniądze od wielkich platform są bardzo potrzebne twórcom. Dr Konrad Michalak mówił, że tylko ok 10 proc. filmowców (aktorów, scenarzystów, reżyserów itp.) ma wysokie zarobki. Więcej na ten temat można przeczytać TUTAJ.
Jak dodał dr Trzciński, w przypadku muzyków jest to jedynie 1,5 proc. Reszta dostaje niewielkie tantiemy i zapłatę za koncerty, jeśli gdzieś występuje. Autorzy tekstów, których w Polsce jest kilkadziesiąt tysięcy, zarabiają głównie na tantiemach, które w ich przypadku są niewielkie. „Ich przyszłość jest zagrożona” – zaznaczył ekspert.
„Przyszłość danych państw, PKB, etc. zależy od tych wszystkich twórców, różnego typu. Idziemy do przodu właśnie dzięki ludziom kreatywnym. Musimy ich odpowiednio wynagradzać” – podsumował.
Co możemy zrobić, żeby chronić nasze dane?
Jak zaznaczyła dr Paula Skrzypecka: „W relacji z Big Techami jesteśmy zawsze na słabszej pozycji”. Zazwyczaj platforma komunikuje swoje warunki działania, przedstawiając regulamin, w którym jest zapisane, że jeśli chcemy korzystać z jej usług, musimy zgodzić się na scrapowanie naszych danych i szkolenie na nich modelu AI. Tak postąpił m.in. Facebook, X, LinkedIn.
Zdarza się przy tym, że właściciele platform społecznościowych nie komunikują jasno swojej polityki dotyczącej danych, co jest sprzeczne z RODO.
Jak radzi prawniczka, jeśli nie zgadzamy się z polityką danej platformy, powinniśmy szukać formularza, w którym możemy zgłosić swój sprzeciw lub skargę. Można też odznaczyć automatyczną zgodę na szkolenie na naszych danych w ustawieniach, o czym można przeczytać m.in.tutaj i tutaj. Niestety formularze często są ukryte na stronach lub skonstruowane w sposób wadliwy, jak to było w przypadku Mety.
„Jako użytkownicy powinniśmy domagać się od platform, aby mechanizm pozyskiwania naszych danych, czy też twórczości był lepiej wyjaśniony. Tak by prawo do informacji nie było pozorne, życzeniowe” – oceniła Paula Skrzypecka.
Czytaj też
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].