Technologie
Jak ochronić strony internetowe przed skanowaniem przez OpenAI?
Czy da się ochronić strony internetowe przed skanowaniem przez firmę OpenAI, która w oparciu o dane z nich trenuje swoje duże modele językowe? Tak - spółka Sama Altmana udostępniła samodzielnie możliwość blokowania botów skanujących.
OpenAI - twórcy m.in. słynnego modelu ChatGPT i jego następcy GPT-4, udostępnili crawlera webowego, którego zadaniem jest skanowanie stron internetowych dostępnych w sieci. Na zgromadzonych w ten sposób danych może uczyć się sztuczna inteligencja.
Jak ochronić swoją stronę przed ChatemGPT?
Firma poinformowała, że operatorzy stron internetowych mogą zablokować crawler GPTBot w pliku Robots.txt, albo też zbanować jego adres IP. Możemy o tym przeczytać w specyfikacji bota na blogu OpenAI .
OpenAI zaznaczyła wyraźnie, że strony, po których porusza się bot, mogą być wykorzystywane do trenowania modeli sztucznej inteligencji opracowywanych przez firmę. Wyjątkiem mają być witryny chronione przez paywall, jak i te, które gromadzą dane pozwalające na identyfikację konkretnych osób, a także strony zawierające treści, które naruszają regulamin usług OpenAI.
Pierwszy krok do walki z wszędobylską AI
Do tej pory kwestia skanowania stron internetowych i gromadzenia danych przez firmy rozwijające usługi sztucznej inteligencji była jednym z najgorętszych tematów wokół tej technologii.
Pobieranie danych i trenowanie modeli odbywa się często z naruszeniem praw autorskich , przez co np. modele generujące obrazy wytwarzają materiały imitujące styl rozpoznawalnych artystów cyfrowych, a modele generujące tekst naśladują sposób prowadzenia narracji znanych autorów - niejednokrotnie powielając całe fragmenty ich pracy.
OpenAI to jedna z firm, która otrzymała w związku z takimi praktykami pozew od pokrzywdzonych artystów i autorów.
Trenowanie modeli budzi również kontrowersje w świecie mediów, na których treściach ChatGPT i inne algorytmy szkoliły się, niejednokrotnie obchodząc zabezpieczenia w postaci paywalli.
Wprowadzenie możliwości zablokowania crawlera OpenAI to pierwszy ruch twórców sztucznej inteligencji w stronę umożliwienia ochrony przed ich działalnością administratorom stron internetowych i wszystkim osobom, które nie życzą sobie, aby ich praca była wykorzystywana do szkolenia modeli.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na:\\\*[email protected].\\\*