Technologie
Stable Diffusion zapamiętuje obrazy, na których się uczy. To problem dla prywatności
Algorytm Stable Diffusion służący do generowania obrazów zapamiętuje niektóre dane, na których się uczył. To problem dla prywatności – ostrzegają naukowcy, którzy stwierdzili, że model zapamiętał 0,03 proc. materiału szkoleniowego.
Model Stable Diffusion to algorytm firmy Stability AI wykorzystywany do tworzenia obrazów. O tym, jak działają tego rodzaju narzędzia, napisaliśmy m.in. w tym tekście – rozważając, czy sztuczna inteligencja może w przyszłości zastąpić artystów i tłumacząc problemy, które branża artystyczna dostrzega w powstaniu generatywnej sztucznej inteligencji.
Czytaj też
Stable Diffusion uczy się zbyt dokładnie
Najnowsze badania naukowców z Google, Uniwersytetu Kalifornijskiego w Berkeley, Uniwersytetu w Princeton i ETH w Zurychu wykazały, że Stable Diffusion zapamiętało 0,03 proc. obrazów ze zbioru liczącego ok. 300 tys. próbek.
Sztuczna inteligencja potrafi zatem – na podstawie zapytania – odtworzyć wygląd konkretnych osób, jeśli w zbiorze treningowym znajdowały się wcześniej jej zdjęcia z odpowiednim opisem.
To stawia prywatność w modelach takich, jak Stable Diffusion czy Midjourney w dużo bardziej negatywnym świetle i zdaniem badaczy, umożliwia prowadzenie ukierunkowanych ataków z wykorzystaniem tego rodzaju narzędzi. Jak się okazuje, dane szkoleniowe wcale nie pozostają prywatne, tak jak deklarują twórcy algorytmu.
Czytaj też
Ograniczenia badania
Badania przeprowadzone przez naukowców mają jednak swoje ograniczenia. Algorytm ma bardzo niewielką zdolność łączenia generowanych przez siebie obrazów z danymi treningowymi – z ok. 350 tys. obrazów oznaczonych jako prawdopodobnie dopasowane przez algorytm (ze zbioru 175 mln wszystkich wygenerowanych próbek) badacze wskazali jedynie 94 bezpośrednio połączone pary grafik i 109 próbek, które zostały prawdopodobnie uznane przez algorytm za pasujące.
Oznacza to, że realna zdolność dopasowywania obrazów generowanych do tych ze zbioru danych treningowych Stable Diffusion waha się w okolicy 0,03 proc. Model ten nie jest zdolny do zapamiętywania dużych ilości danych – zaznaczają eksperci w swoim opracowaniu cytowanym przez serwis Ars Technica .
Czytaj też
Konsekwencje nie tylko dla prywatności
Badacze wskazują, że nowe badania mają konsekwencje nie tylko dla prywatności modeli takich jak Stable Diffusion, ale i dla kwestii związanych z ochroną praw autorskich.
W skrócie, ich opracowanie udowadnia, że ze zbioru danych treningowych algorytmów będzie można „odzyskać" prace wykonane przez konkretne osoby, które zostały pobrane z internetu w celach szkoleniowych dla modelu – i dzięki temu będą mogli oni dochodzić swoich praw od firm będących właścicielami tego rodzaju technologii.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].
Haertle: Każdego da się zhakować
Materiał sponsorowany