Stable Diffusion zapamiętuje obrazy, na których się uczy. To problem dla prywatności

CyberDefence24 02.02.2023 17:13

Autor. See-ming Lee / Flickr

Algorytm Stable Diffusion służący do generowania obrazów zapamiętuje niektóre dane, na których się uczył. To problem dla prywatności – ostrzegają naukowcy, którzy stwierdzili, że model zapamiętał 0,03 proc. materiału szkoleniowego.

Reklama

Model Stable Diffusion to algorytm firmy Stability AI wykorzystywany do tworzenia obrazów. O tym, jak działają tego rodzaju narzędzia, napisaliśmy m.in. w tym tekście – rozważając, czy sztuczna inteligencja może w przyszłości zastąpić artystów i tłumacząc problemy, które branża artystyczna dostrzega w powstaniu generatywnej sztucznej inteligencji.

Reklama

Czytaj też

ChatGPT to „generator bullshitu”. Dlaczego zatem dajemy się na niego nabrać?

Reklama

Stable Diffusion uczy się zbyt dokładnie

Reklama

Najnowsze badania naukowców z Google, Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu w Princeton i ETH w Zurychu wykazały, że Stable Diffusion zapamiętało 0,03 proc. obrazów ze zbioru liczącego ok. 300 tys. próbek.

Sztuczna inteligencja potrafi zatem – na podstawie zapytania – odtworzyć wygląd konkretnych osób, jeśli w zbiorze treningowym znajdowały się wcześniej jej zdjęcia z odpowiednim opisem.

Reklama

To stawia prywatność w modelach takich, jak Stable Diffusion czy Midjourney w dużo bardziej negatywnym świetle i zdaniem badaczy, umożliwia prowadzenie ukierunkowanych ataków z wykorzystaniem tego rodzaju narzędzi. Jak się okazuje, dane szkoleniowe wcale nie pozostają prywatne, tak jak deklarują twórcy algorytmu.

Czytaj też

Sztuczna inteligencja coraz powszechniejsza w użyciu. GPTZero jako odpowiedź na ChatGPT

Ograniczenia badania

Badania przeprowadzone przez naukowców mają jednak swoje ograniczenia. Algorytm ma bardzo niewielką zdolność łączenia generowanych przez siebie obrazów z danymi treningowymi – z ok. 350 tys. obrazów oznaczonych jako prawdopodobnie dopasowane przez algorytm (ze zbioru 175 mln wszystkich wygenerowanych próbek) badacze wskazali jedynie 94 bezpośrednio połączone pary grafik i 109 próbek, które zostały prawdopodobnie uznane przez algorytm za pasujące.

Reklama

Oznacza to, że realna zdolność dopasowywania obrazów generowanych do tych ze zbioru danych treningowych Stable Diffusion waha się w okolicy 0,03 proc. Model ten nie jest zdolny do zapamiętywania dużych ilości danych – zaznaczają eksperci w swoim opracowaniu cytowanym przez serwis Ars Technica .

Czytaj też

Przelana czara goryczy. Artyści pozywają twórców Midjourney i Stable Diffusion

Konsekwencje nie tylko dla prywatności

Badacze wskazują, że nowe badania mają konsekwencje nie tylko dla prywatności modeli takich jak Stable Diffusion, ale i dla kwestii związanych z ochroną praw autorskich.

Reklama

W skrócie, ich opracowanie udowadnia, że ze zbioru danych treningowych algorytmów będzie można „odzyskać" prace wykonane przez konkretne osoby, które zostały pobrane z internetu w celach szkoleniowych dla modelu – i dzięki temu będą mogli oni dochodzić swoich praw od firm będących właścicielami tego rodzaju technologii.

Reklama

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama

Cyfrowy Senior. Jak walczy się z oszustami?

Komentarze

Reklama