WIADOMOŚCI

Bluesky nie zablokuje treningu AI na treściach użytkowników. Bo nie może

27 listopada 2024, 17:11

2 min.

W ostatni wtorek listopada kontrowersje spowodowała publikacja zestawu danych z miliona postów z platformy Bluesky, m.in. do treningu AI. Serwis mówi, że nie jest w stanie tego zablokować.
Autor. Yohan Marion/Unsplash

Treści użytkowników platformy Bluesky mogą być wykorzystane do treningu sztucznej inteligencji. Nie chodzi tu jednak o działania samego portalu, a podmiotów zewnętrznych. Co istotne, ze stanowiska administracji wynika, że nawet w wyniku braku zgody członków społeczności, ich treści i tak mogą trafić do bazy służącej do treningu AI.

W lipcu spore kontrowersje wywołała decyzja Elona Muska o szkoleniu modelu xAI znanego jako Grok na treściach użytkowników portalu X (d. Twitter). Na łamach CyberDefence24 opisywaliśmy wówczas, jak wyłączyć wykorzystywanie treści tworzonych przez danego użytkownika do treningu sztucznej inteligencji miliardera – domyślnie opcja jest włączona dla każdego członka społeczności.

Zobacz też

Elon Musk trenuje AI na Twoich danych. Pokazujemy, jak to zmienić

Treści z Bluesky w zestawie danych do szkolenia AI

Niezadowolenie z polityki Muska spowodowało rosnącą popularność serwisu Bluesky. Oryginalnie był to projekt, który był częścią Twittera – jego skróconą historię opisywaliśmy niedawno na naszych łamach. Jednym z punktów przewagi nad X miało być niewykorzystywanie treści użytkowników do treningu sztucznej inteligencji.

O ile jednak platforma niezmiennie trwa przy swojej deklaracji, tak szczegóły ujawniają inny słaby punkt w kontekście AI. Jak bowiem zauważył portal 404 Media, dzięki oparciu Bluesky na otwartym AT Protocol, każdy może ściągnąć za pomocą API dowolną treść opublikowaną na platformie.

Tak też zrobił Daniel van Strien, badacz uczenia maszynowego i zarazem pracownik HuggingFace. We wtorek opublikował on zestaw danych składający się z miliona postów z Bluesky, dat ich publikacji oraz zdecentralizowanym ID autora pobranych za pomocą API platformy. Oprócz typowej zawartości, można w nim także znaleźć treści dla dorosłych.

Zobacz też

Powstał Ośrodek Badań nad Bezpieczeństwem Sztucznej Inteligencji w NASK. Znamy nazwisko szefa

Milion postów z Bluesky

Mało kto spodziewał się reakcji społeczności na zamieszczenie zestawu. Błyskawicznie znalazł się on wśród najpopularniejszych baz zamieszczonych na HuggingFace. Gdy sprawą zainteresowały się media, van Strien wycofał się ze swojej decyzji i usunął pliki z repozytorium. To z kolei wywołało kolejną dyskusję, w której wypowiedział się sam zainteresowany.

Chciałem tylko powiedzieć, że również uważam, że podszedłem do tego w niewłaściwy sposób i można to było zrobić lepiej od samego początku. Myślę, że sugerowane (przez administrację platformy – red.) podejście polegające na umożliwieniu ludziom decydowania (o swoich danych) może być bardzo cenne i pozwolić ludziom na tworzenie zestawów danych, które mogą pomóc ulepszyć Bluesky, bez konieczności podpisywania się przez wszystkich
Daniel van Strien, badacz uczenia maszynowego i pracownik HuggingFace

Bluesky: wprowadzimy klauzulę, ale nie będziemy w stanie jej wyegzekwować

W związku z niezadowoleniem wywołanym przez publikację zestawu danych, głos zabrała sama administracja platformy. W specjalnym wpisie poinformowano, że możliwe jest wprowadzenie w opcjach klauzuli opt-in dotyczącej wykorzystania tworzonych treści przez zewnętrznych deweloperów.

For example, this might look like a setting that allows Bluesky users to specify whether they consent to outside developers using their content in AI training datasets Bluesky won’t be able to enforce this consent outside of our systems. It will be up to outside developers to respect these settings
— Bluesky (@bsky.app) November 27, 2024 at 3:11 AM

Okazuje się jednak, że możliwe będzie zignorowanie woli użytkownika i wykorzystanie danych w dowolny sposób – w tym do treningu sztucznej inteligencji. Platforma przyznała, że nie będzie w stanie wyegzekwować braku zgody – ponownie zapewniono jednak, że decyzja administracji o nietrenowaniu AI na treściach społeczności nie ulegnie zmianie.

Zobacz też

Wyciekł dostęp do Sory. Artyści opublikowali list otwarty

Paweł Makowiec

27 listopada 2024, 17:11

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Bluesky nie zablokuje treningu AI na treściach użytkowników. Bo nie może

Zobacz też

Treści z Bluesky w zestawie danych do szkolenia AI

Zobacz też

Milion postów z Bluesky

Bluesky: wprowadzimy klauzulę, ale nie będziemy w stanie jej wyegzekwować

Zobacz też

Zobacz również

Polecane

Czytaj także

Mogą Cię zainteresować