Czatboty oparte o algorytmy i uczenie maszynowe (potocznie ujmowane jako sztuczna inteligencja) żerują na mediach i znacznie częściej wykorzystują treści informacyjne od wydawców, niż inne artykuły z sieci - twierdzi organizacja branżowa mediów News Media Alliance.
Czatboty oparte o algorytmy i uczenie maszynowe, potocznie ujmowane jako sztuczna inteligencja, zdaniem wydawców prasy nadmiernie wykorzystują treści o charakterze informacyjnym, w stosunku do innego rodzaju materiałów online.
Dziennik „New York Times” zauważa, że w ciągu ostatniego roku wydawcy wielokrotnie zwracali uwagę, że ChatGPT i inne tego rodzaju boty żerują na treściach chronionych prawem autorskim. Obecnie natomiast twierdzą, że twórcy narzędzi takich jak wspomniany już słynny czatbot i jemu pokrewne, w nieproporcjonalny sposób wykorzystują treści informacyjne w budowie swoich produktów, znacznie mniej korzystając z innych materiałów.
Czytaj też
Dziennikarstwo jednak wartościowe
Badania, które przygotowało stowarzyszenie branżowe News Media Alliance zrzeszające dużych wydawców - a pośród nich piszący o sprawie „NYT” - wskazuje, że mimo powszechnego narzekania na dziennikarstwo, jest ono jednak wartościowe. Cenią je niewątpliwie twórcy narzędzi takich, jak wspomniany już ChatGPT - z raportu stowarzyszenia wynika, że artykuły medialne mają dla twórców czatbotów znacznie większą wartość, niż inne treści, gdy mowa o trenowaniu algorytmów wykorzystywanych przez boty.
Te ostatnie, jak wykazało stowarzyszenie, w udzielanych użytkownikom odpowiedziach nierzadko reprodukują całe fragmenty wykorzystanych do treningu artykułów. Stanowi to nie tylko naruszenie praw autorskich, ale i - tak po prostu - dobrego smaku. To także, z perspektywy wydawców, kolejny problem z branżą nowych technologii, z którym mają do czynienia. Poprzednim była kwestia długoletnich batalii z firmami takimi jak Google czy Meta (Facebook) o wynagrodzenie za pobierane przez ich usługi nagłówki, a często nawet i całe artykuły ze stron wydawców.
Trudne zadanie
Czatboty takie, jak ChatGPT czy Google Bard uczą się na ogromnych zbiorach danych, które pochodzą z otwartego internetu. Firmy, które oferują tego rodzaju produkty, bardzo zazdrośnie strzegą informacji o tym, jakie dokładnie dane szkoleniowe są wykorzystywane. W rzeczywistości możemy jedynie domyślać się, na podstawie odpowiedzi, których udzielają nam boty, na jakich danych były uczone.
Ani OpenAI (twórcy ChatuGPT) ani Google nie potwierdzili, że ich narzędzia uczą się na treściach od wydawców. Byłaby to prosta droga do pozwu dla tych firm ze strony mediów, których prawa autorskie są naruszane. W ramach swojego eksperymentu, News Media Alliance jednak porównało próbki danych, które są uważane za część zbiorów szkoleniowych najpopularniejszych czatbotów, ze zbiorami danych treści pobranych z otwartego internetu.
Badanie wykazało, że dane uważane za szkoleniowe i udostępniane przez wielkie firmy technologiczne pięć do stu (!) razy częściej korzystały z treści newsowych, niż z innych rodzajów materiałów online, w zestawieniu z otwartoźródłowym zbiorem z otwartego internetu. Zdaniem organizacji oznacza to jedno - twórcy narzędzi AI decyzję o takim a nie innym doborze treści podejmują w pełni świadomie. Innym dowodem na taki stan rzeczy ma być zdaniem wydawców to, że czatboty powielają styl wypowiedzi prezentowany w artykułach informacyjnych.
Wyniki badania zostały przekazane przez wydawców amerykańskiej instytucji odpowiedzialnej za kwestie związane z prawem autorskim i patentami. Stowarzyszenie nie wyklucza postępowania sądowego przeciwko twórcom czatbotów.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].