Jak ochronić strony internetowe przed skanowaniem przez OpenAI?

Małgorzata Fraser 08.08.2023 14:48

Autor. Mojahid Mottakin / Unsplash

Czy da się ochronić strony internetowe przed skanowaniem przez firmę OpenAI, która w oparciu o dane z nich trenuje swoje duże modele językowe? Tak - spółka Sama Altmana udostępniła samodzielnie możliwość blokowania botów skanujących.

Reklama

OpenAI - twórcy m.in. słynnego modelu ChatGPT i jego następcy GPT-4, udostępnili crawlera webowego, którego zadaniem jest skanowanie stron internetowych dostępnych w sieci. Na zgromadzonych w ten sposób danych może uczyć się sztuczna inteligencja.

Reklama

Jak ochronić swoją stronę przed ChatemGPT?

Reklama

Firma poinformowała, że operatorzy stron internetowych mogą zablokować crawler GPTBot w pliku Robots.txt, albo też zbanować jego adres IP. Możemy o tym przeczytać w specyfikacji bota na blogu OpenAI .

OpenAI zaznaczyła wyraźnie, że strony, po których porusza się bot, mogą być wykorzystywane do trenowania modeli sztucznej inteligencji opracowywanych przez firmę. Wyjątkiem mają być witryny chronione przez paywall, jak i te, które gromadzą dane pozwalające na identyfikację konkretnych osób, a także strony zawierające treści, które naruszają regulamin usług OpenAI.

Reklama

Pierwszy krok do walki z wszędobylską AI

Reklama

Do tej pory kwestia skanowania stron internetowych i gromadzenia danych przez firmy rozwijające usługi sztucznej inteligencji była jednym z najgorętszych tematów wokół tej technologii.

Pobieranie danych i trenowanie modeli odbywa się często z naruszeniem praw autorskich , przez co np. modele generujące obrazy wytwarzają materiały imitujące styl rozpoznawalnych artystów cyfrowych, a modele generujące tekst naśladują sposób prowadzenia narracji znanych autorów - niejednokrotnie powielając całe fragmenty ich pracy.

Reklama

OpenAI to jedna z firm, która otrzymała w związku z takimi praktykami pozew od pokrzywdzonych artystów i autorów.

Trenowanie modeli budzi również kontrowersje w świecie mediów, na których treściach ChatGPT i inne algorytmy szkoliły się, niejednokrotnie obchodząc zabezpieczenia w postaci paywalli.

Reklama

Wprowadzenie możliwości zablokowania crawlera OpenAI to pierwszy ruch twórców sztucznej inteligencji w stronę umożliwienia ochrony przed ich działalnością administratorom stron internetowych i wszystkim osobom, które nie życzą sobie, aby ich praca była wykorzystywana do szkolenia modeli.

Reklama

CyberDefence24.pl - Digital EU Ambassador

Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].

Reklama