Reklama

Technologie

Bluesky nie zablokuje treningu AI na treściach użytkowników. Bo nie może

W ostatni wtorek listopada kontrowersje spowodowała publikacja zestawu danych z miliona postów z platformy Bluesky, m.in. do treningu AI. Serwis mówi, że nie jest w stanie tego zablokować.
W ostatni wtorek listopada kontrowersje spowodowała publikacja zestawu danych z miliona postów z platformy Bluesky, m.in. do treningu AI. Serwis mówi, że nie jest w stanie tego zablokować.
Autor. Yohan Marion/Unsplash

Treści użytkowników platformy Bluesky mogą być wykorzystane do treningu sztucznej inteligencji. Nie chodzi tu jednak o działania samego portalu, a podmiotów zewnętrznych. Co istotne, ze stanowiska administracji wynika, że nawet w wyniku braku zgody członków społeczności, ich treści i tak mogą trafić do bazy służącej do treningu AI.

W lipcu spore kontrowersje wywołała decyzja Elona Muska o szkoleniu modelu xAI znanego jako Grok na treściach użytkowników portalu X (d. Twitter). Na łamach CyberDefence24 opisywaliśmy wówczas, jak wyłączyć wykorzystywanie treści tworzonych przez danego użytkownika do treningu sztucznej inteligencji miliardera – domyślnie opcja jest włączona dla każdego członka społeczności.

Czytaj też

Reklama

Treści z Bluesky w zestawie danych do szkolenia AI

Niezadowolenie z polityki Muska spowodowało rosnącą popularność serwisu Bluesky. Oryginalnie był to projekt, który był częścią Twittera – jego skróconą historię opisywaliśmy niedawno na naszych łamach. Jednym z punktów przewagi nad X miało być niewykorzystywanie treści użytkowników do treningu sztucznej inteligencji.

O ile jednak platforma niezmiennie trwa przy swojej deklaracji, tak szczegóły ujawniają inny słaby punkt w kontekście AI. Jak bowiem zauważył portal 404 Media, dzięki oparciu Bluesky na otwartym AT Protocol, każdy może ściągnąć za pomocą API dowolną treść opublikowaną na platformie. 

Tak też zrobił Daniel van Strien, badacz uczenia maszynowego i zarazem pracownik HuggingFace. We wtorek opublikował on zestaw danych składający się z miliona postów z Bluesky, dat ich publikacji oraz zdecentralizowanym ID autora pobranych za pomocą API platformy. Oprócz typowej zawartości, można w nim także znaleźć treści dla dorosłych.

Czytaj też

Reklama

Milion postów z Bluesky

Mało kto spodziewał się reakcji społeczności na zamieszczenie zestawu. Błyskawicznie znalazł się on wśród najpopularniejszych baz zamieszczonych na HuggingFace. Gdy sprawą zainteresowały się media, van Strien wycofał się ze swojej decyzji i usunął pliki z repozytorium. To z kolei wywołało kolejną dyskusję, w której wypowiedział się sam zainteresowany.

Chciałem tylko powiedzieć, że również uważam, że podszedłem do tego w niewłaściwy sposób i można to było zrobić lepiej od samego początku. Myślę, że sugerowane (przez administrację platformy – red.) podejście polegające na umożliwieniu ludziom decydowania (o swoich danych) może być bardzo cenne i pozwolić ludziom na tworzenie zestawów danych, które mogą pomóc ulepszyć Bluesky, bez konieczności podpisywania się przez wszystkich
Daniel van Strien, badacz uczenia maszynowego i pracownik HuggingFace
Reklama

Bluesky: wprowadzimy klauzulę, ale nie będziemy w stanie jej wyegzekwować

W związku z niezadowoleniem wywołanym przez publikację zestawu danych, głos zabrała sama administracja platformy. W specjalnym wpisie poinformowano, że możliwe jest wprowadzenie w opcjach klauzuli opt-in dotyczącej wykorzystania tworzonych treści przez zewnętrznych deweloperów. 

For example, this might look like a setting that allows Bluesky users to specify whether they consent to outside developers using their content in AI training datasets Bluesky won’t be able to enforce this consent outside of our systems. It will be up to outside developers to respect these settings

— Bluesky (@bsky.app) November 27, 2024 at 3:11 AM

Okazuje się jednak, że możliwe będzie zignorowanie woli użytkownika i wykorzystanie danych w dowolny sposób – w tym do treningu sztucznej inteligencji. Platforma przyznała, że nie będzie w stanie wyegzekwować braku zgody – ponownie zapewniono jednak, że decyzja administracji o nietrenowaniu AI na treściach społeczności nie ulegnie zmianie.

Czytaj też

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:[email protected].

Reklama

Komentarze

    Reklama