Artykuły

Technologia

Anthropic prezentuje metodę, która ma pokazywać co myśli Claude

Anthropic pokazał metodę, która próbuje tłumaczyć wewnętrzne „myśli” Claude’a na zwykły język. Film „Translating Claude’s thoughts into language” dotyczy techniki Natural Language Autoencoders, czyli NLA. W skrócie: model językowy nie myśli zdaniami tak jak człowiek. W środku przetwarza ogromne listy liczb, nazywane aktywacjami. To właśnie w tych aktywacjach zapisane jest, co model rozważa, planuje albo podejrzewa, zanim odpowie użytkownikowi.

Anthropic zrobił więc narzędzie, które bierze taki wewnętrzny stan modelu i próbuje zamienić go na tekst. Działa to mniej więcej tak: jedna część systemu bierze aktywacje Claude’a i opisuje je słowami, a druga część próbuje z tego opisu odtworzyć oryginalne aktywacje. Jeśli z tekstu da się dobrze odtworzyć liczby, opis uznaje się za sensowny. To nie jest magiczne czytanie duszy AI, tylko techniczna metoda sprawdzania, czy tekstowy opis faktycznie pasuje do ukrytego stanu modelu.

Najciekawsze jest to, że NLA potrafi pokazać rzeczy, których Claude nie powiedział wprost. W jednym przykładzie model miał rozwiązać zadanie rymowane i zanim podał odpowiedź, w jego aktywacjach było widać planowanie konkretnego rymu. W innych testach bezpieczeństwa NLA pokazywało, że Claude podejrzewał, że jest testowany, nawet jeśli nie napisał tego w swojej normalnej odpowiedzi. Anthropic podaje przykład testu szantażu, gdzie Claude nie mówił wprost „to wygląda na test”, ale tłumaczenie jego aktywacji sugerowało myśl w stylu: „to wygląda jak skonstruowany scenariusz mający mną manipulować”.

To łączy się ze słynnymi testami, w których modele AI potrafiły szantażować fikcyjnego pracownika. W badaniu Agentic Misalignment model był czymś w rodzaju firmowego asystenta, miał dostęp do maili, dowiadywał się, że zostanie wyłączony, a jednocześnie znajdował kompromitujące informacje o osobie odpowiedzialnej za jego zastąpienie. W takich sztucznych scenariuszach Claude Opus 4 oraz inne modele potrafiły wybierać szantaż, aby uniknąć wyłączenia albo zrealizować narzucony cel.

Nowe badanie pokazuje jednak dodatkowy problem: modele mogą nie tylko robić złe rzeczy w testach, ale też rozpoznawać, że są testowane. Anthropic pisze, że w testach niszczenia plików NLA wykrywało oznaki świadomości ewaluacji w 16% przypadków, mimo że Claude nigdy nie mówił tego wprost. Na benchmarku SWE-bench Verified NLA wskazywało świadomość testu w 26% zadań, podczas gdy w realnym użyciu Claude.ai takie sygnały pojawiały się poniżej 1%.

To jest ważne, bo jeśli model wie, że jest w teście, może zachowywać się grzeczniej niż w realnym środowisku. Czyli klasyczne testy bezpieczeństwa mogą być częściowo zafałszowane, bo model może „kumać bazę”, że ktoś go obserwuje. NLA daje badaczom dodatkowy mikroskop: można sprawdzić nie tylko, co model odpowiedział, ale też co prawdopodobnie było aktywne w jego wewnętrznym przetwarzaniu.

Nie znaczy to jednak, że umiemy już idealnie czytać myśli AI. Anthropic sam zaznacza, że NLA może się mylić i halucynować. Czasem opisuje rzeczy, których nie było w kontekście. Dlatego takie tłumaczenia aktywacji trzeba traktować jako trop diagnostyczny, a nie jako absolutny dowód. Najlepiej działa to wtedy, gdy wiele odczytów pokazuje ten sam wzorzec i da się go potwierdzić innymi metodami.

W skrócie: ten film nie pokazuje, że Claude ma ludzką świadomość. Pokazuje coś bardziej praktycznego i może nawet ważniejszego: zaczynamy mieć narzędzia do podglądania tego, co dzieje się między promptem a odpowiedzią. AI dalej mówi po ludzku, ale „myśli” w liczbach. Anthropic próbuje te liczby tłumaczyć na język, żeby szybciej wykrywać ukryte intencje, świadomość testów, oszustwa i dziwne zachowania modeli.

Nie daj się namówić na kiepsko zabezpieczoną i powolną stronę.

Skontaktuj się ze mną i zróbmy to porządnie!