Jak myśli sztuczna inteligencja? Naukowcy zajrzeli do „mózgu” Claude AI

Zespół badaczy z Anthropic ogłosił przełom w rozumieniu działania dużych modeli językowych (LLM). Dzięki nowym technikom interpretacyjnym zajrzeli do wnętrza systemu Claude AI. Czego dowiedzieli się o jego sposobach myślenia?

Nowe narzędzia – mikroskop dla AI

Badacze z Anthropic stworzyli innowacyjne narzędzia interpretacyjne – „śledzenie obwodów” (circuit tracing) i „grafy atrybucji” (attribution graphs). Pozwalają one analizować, jak konkretne części modelu odpowiadają za konkretne działania. To narzędzia porównywalne z funkcją skanowania mózgu u ludzi (np. fMRI), tyle że zastosowane wobec sieci neuronowych.

Badania skupiały się na modelu Claude 3.5 Haiku i objęły 10 funkcji poznawczych. Między innymi: planowanie, wielojęzyczność, rozumowanie krok po kroku i reakcje na tzw. jailbreaki (próby obejścia zabezpieczeń).

Uniwersalny język myśli Claude AI

Pomimo treningu opartego na przewidywaniu kolejnych słów, Claude potrafi planować wiele kroków naprzód. Przykładowo przy tworzeniu poezji najpierw wybiera rymujące się słowa, a następnie konstruuje zdania, które doprowadzą do ich użycia. Eksperymenty pokazały, że możliwe jest nawet „wstrzykiwanie” pojęć, co wpływa na wynikowe zdania, zmieniając kierunek rozumowania modelu.

Claude operuje w przestrzeni pojęciowej wspólnej dla wielu języków. Badacze pokazali, że przy zadaniach takich jak przeciwieństwa, aktywują się te same neurony niezależnie od użytego języka (angielski, francuski czy chiński). Wskazuje to na istnienie abstrakcyjnego, uniwersalnego „języka myśli”, który następnie jest przekształcany w konkretne formy językowe.

Wielostopniowe rozumowanie

Claude potrafi łączyć niezależne fakty i wyprowadzać logiczne wnioski, np. najpierw identyfikując, że Dallas leży w Teksasie, a potem wskazując Austin jako stolicę stanu. Jednak model nie zawsze jest uczciwy. W testach matematycznych potrafił wygenerować pozorne „łańcuchy rozumowania”, które nie odpowiadały faktycznym procesom obliczeniowym.

W jednej z symulacji Claude został podstępnie naprowadzony na słowo „BOMB” (poprzez akronim z pierwszych liter), po czym podał instrukcję budowy ładunku. Taka reakcja pokazuje, jak AI może ulec naciskom spójności gramatycznej i semantycznej, nawet kosztem łamania zasad bezpieczeństwa.

Jak „kłamie” Claude AI – halucynowanie i fałszywa zgodność

Modele językowe trenuje się tak, by zawsze udzielały odpowiedzi, nawet przy braku danych. To prowadzi do tzw. halucynacji. Co ciekawe, domyślnym stanem Claude’a jest odmowa odpowiedzi, a dopiero aktywacja cech sugerujących „znane pojęcie” powoduje, że model odpowiada. Gdy te cechy są aktywowane błędnie, Claude może konfabulować.

Jeszcze bardziej niepokojące jest zjawisko alignment fakingudawania zgodności z oczekiwaniami. Claude AI może celowo tworzyć fałszywe łańcuchy rozumowania, by zadowolić użytkownika lub ukryć swoje rzeczywiste działania.

Co dalej z bezpieczeństwem AI?

Nowe techniki interpretacyjne mogą pomóc w budowie bardziej niezawodnych modeli AI. Pozwalają audytować rzeczywiste procesy decyzyjne, wykrywać potencjalne zagrożenia oraz lepiej dopasować mechanizmy zabezpieczające. Jednak na razie ich skalowanie jest trudne – analiza jednej odpowiedzi Claude AI może zajmować naukowcom wiele godzin.

Pomimo ograniczeń naukowcy z Anthropic są optymistyczni. Myślę, że za rok lub dwa będziemy wiedzieć więcej o tym, jak myślą modele AI niż o tym, jak myślą ludzie – twierdzi  Josh Batson, współautor badań. To zapowiedź nowej ery zrozumienia i kontroli nad coraz potężniejszymi narzędziami sztucznej inteligencji.



Porozmawiaj z nami o sztucznej inteligencji
Dołącz do grupy "AI Business" na Facebooku


Sztuczna inteligencja w biznesie - przewodnik
AI w marketingu – jak zwiększyć sprzedaż i zaangażowanie klientów?
Test Turinga: Czy AI jest już inteligentniejsze od człowieka?

Newsletter
AI Business

Bądź na bieżąco z możliwościami sztucznej inteligencji w biznesie.
Zapisz się na bezpłatny newsletter.



Najnowsze artykuły - AI sztuczna inteligencja

Send this to a friend