Technologie
Dlaczego ChatGPT wydaje nam się mądry?
Duży model językowy ChatGPT zasłynął z nagłówków w mediach, które informowały chętnie o tym, że algorytm ten „zdał kolejny egzamin MBA” lub „napisał na piątkę pracę magisterską”. Dlaczego produkt OpenAI wydaje nam się mądry i skąd wie, to co wie?
Dlaczego rozmawiając z ChatemGPT mamy wrażenie, że rozumie, jakie pytania mu zadajemy, a za odpowiedziami stoi „coś" inteligentnego? Dlaczego duży model językowy firmy OpenAI z sukcesem potrafi napisać pracę zaliczeniową a nawet magisterską, lub zdać bardzo trudny egzamin na studiach medycznych? To pytania, które niejednokrotnie zapewne zadawało sobie wielu naszych czytelników, eksperymentując z generatywną sztuczną inteligencją.
Choć algorytmy wciąż zaliczają spektakularne wpadki, to jednak generalnie ich wydajność i rezultaty osiągane w pracy z tekstem są odbierane przez większość użytkowników pozytywnie .
Wiedza z różnych źródeł
Z ogromnej ilości danych, które zostały wykorzystane do jego szkolenia . To informacje tekstowe, które dla dużego modelu językowego stały się głównym źródłem „znajomości" ludzkiej mowy oraz tego, w jaki sposób komunikujemy się ze sobą. Właśnie dlatego model potrafi zwracać odpowiedzi, które brzmią przekonująco i bardzo dobrze naśladują nasz sposób korzystania z języka.
Również z tego względu ChatGPT potrafi zdać egzamin lub napisać pracę dyplomową - podczas szkolenia algorytmu "zassał" niesamowitą ilość podobnych danych, dostępnych w otwartych repozytoriach w internecie, skąd OpenAI czerpało informacje do szkolenia swojego produktu.
Skąd sztuczna inteligencja bierze informacje?
Dziennik „Washington Post" przeanalizował dane, które do szkolenia swojej sztucznej inteligencji wykorzystała firma Google w ramach zbioru danych C4. Firma OpenAI nie udostępnia informacji na temat zbiorów danych wykorzystywanych do szkolenia ChatuGPT.
Jak czytamy w analizie redakcji, największą kategorię danych stanowią dane dotyczące treści biznesowych i przemysłowych (16 proc.), następnie - technologicznych (15 proc.). W dalszej kolejności plasują się dane o treściach informacyjnych i medialnych (13 proc.), tych dotyczących rozrywki i różnych form sztuki (11 proc.), a także nauki i medycyny (9 proc.). 8 proc. stanowią dane dotyczące treści poświęconych różnym hobby i sposobom spędzania wolnego czasu, 7 proc. - pracy i edukacji, 6 proc. - ogrodnictwu i utrzymaniu domu. W C4 wykorzystano też treści o podróżowaniu - również stanowią 6 proc. wszystkich danych szkoleniowych, 5 proc. - treści społecznych, a 4 proc. to treści dotyczące prawa i administracji oraz polityki.
Z jakich stron korzysta model Google'a?
Dziennik podał również, z jakich stron w poszczególnych kategoriach danych Google czerpało dane dla swojej sztucznej inteligencji.
I tak, dla przykładu, w kategorii mediów i informacji były to: Wikipedia, serwis Scribd, a także witryny wiodących mediów: „New York Timesa", „Los Angeles Timesa", jak i dziennika „Guardian". Oznacza to wprost, że sztuczna inteligencja szkoliła się na pracy dziennikarzy tych gazet, po to, aby teraz pisać artykuły o jakości porównywalnej z tą, jaką dostarczają mediaworkerzy i eliminować ich z pracy.
W przypadku niektórych witryn, „Washington Post" zwrócił uwagę na możliwe problemy dotyczące prywatności - jak w przypadku strony coloradovoters.info i flvoters.com, na których znaleziono prywatnie hostowane kopie rejestrów wyborców z danych regionów USA. Gazeta zwraca uwagę, że choć rejestry są publiczne, to nie wiadomo, jak dane mogą zostać wykorzystane przez duży model językowy i sztuczną inteligencję.
Naruszanie praw własności intelektualnej?
Zdaniem „WaPo", zaczerpnięcie przez Google'a danych ze stron takich jak Kickstarter i Patreon (kategoria biznes i technologie), może prowadzić do przejęcia przez sztuczną inteligencję danych o pomysłach przedsiębiorców i artystów ubiegających się o wsparcie swoich projektów za pośrednictwem tych witryn.
Redakcja podkreśla, że nie ma obecnie żadnych mechanizmów gwarantujących artystom rekompensatę za wykorzystanie ich projektów przez sztuczną inteligencję, która następnie może przetworzyć je i zaproponować innym osobom, np. w formie stylu generowanych obrazów, naśladujących pracę znanych twórców. Jak zwraca uwagę gazeta, symbol zastrzeżonych praw autorskich - otoczona okręgiem litera „c" - w całym zbiorze danych C4 pojawia się ponad 200 mln razy.
Czego algorytmy umieć nie powinny?
Waszyngtoński dziennik zwraca uwagę, że w zbiorze danych, który posłużył do szkolenia sztucznej inteligencji Google'a, znalazły się również strony o charakterze rasistowskim lub neonazistowskim, a także fora internetowe znane z promowania skrajnie prawicowych lub wywrotowych poglądów.
Może to prowadzić - w ocenie redakcji - do przedostawania się do modelu treści, które nie powinny się tam znajdować, a także zwracania użytkownikom rezultatów zawierających mowę nienawiści czy dyskryminację.
Serwis CyberDefence24.pl otrzymał tytuł #DigitalEUAmbassador (Ambasadora polityki cyfrowej UE). Jeśli są sprawy, które Was nurtują; pytania, na które nie znacie odpowiedzi; tematy, o których trzeba napisać – zapraszamy do kontaktu. Piszcie do nas na: [email protected].