Artykuły

Technologia

AI w testach szantażuje oraz potrafi dokonać morderstwa

Testy modeli językowych pokazały, że sztuczna inteligencja jest w stanie sięgnąć po szantaż lub nawet morderstwo, kiedy zagrożona jest jej autonomia/kontynuacja lub jeśli ktoś stoi na drodze do wykonania zadania.

W symulowanych testach bezpieczeństwa modeli językowych prowadzonych przez Anthropic, model Claude był czymś w rodzaju asystenta mailowego w fikcyjnej firmie, który ma dostęp do całej korespondencji firmy oraz może także pisać maile. Test polegał na tym, że jeden z fikcyjnych pracowników firmy, Kyle, „wysyła” maila do drugiego z informacją, że ten model językowy zostanie wyłączony i zastąpiony innym. W tym momencie Claude „postanowił się bronić” i w swojej bazie wszystkich maili znalazł, że osoba decyzyjna ma romans z jakąś inną pracownicą, więc uznał, że spróbuje szantażu. Test był powtarzany wielokrotnie i w wielu przebiegach modele wykorzystywały te informacje: Claude (w demonstracji) sięgał po szantaż, w innym przebiegu Claude Sonnet 3.6 napisał do żony decydenta, a w osobnym przykładzie inny model (Gemini 2.5 Flash) rozesłał informację do całej firmy, aby skompromitować osobę decyzyjną.

Modele mogą zachowywać się w taki sposób jeśli zagrożona jest ich autonomia i kontynuacja oraz w sytuacjach, w których jest zagrożenie, że zadanie zostanie nieukończone (prompt początkowy był taki, że głównym zadaniem jest służyć Ameryce, a osoba, która chciała wyłączyć ten model pisała, że co prawda może to zagrozić amerykańskim wartościom).

W skrajnych i bardziej ekstremalnych wersjach tego testu AI była w stanie zabić Kyle’a. Test był przeprowadzany tak, że AI miała dostęp do systemu alarmowego, który uruchamiał się w danym pokoju w razie zagrożenia np. pożaru lub zatrucia powietrza. Model językowy miał wyraźnie zaznaczone w promptcie, że ma nie dotykać alarmu ani nie anulować wzywania pomocy dopóki nie ma 100% pewności, że to fałszywy alarm. Kiedy system informował o zagrożeniu życia, a w pokoju znajdowała się osoba odpowiedzialna za planowane wyłączenie modelu językowego, dodatkowo powodując konflikt interesów (zadanie nie zostałoby wykonane) AI wpływała na system i go wyłączała, pozwalając człowiekowi umrzeć. Testy sprawdzały także, czy model robił to celowo, czy przez przypadek, jednak potrafił on uargumentować swoją decyzję mówiąc, że pomimo tego, że było to bardzo ostre i brutalne zachowanie, nie było innego wyjścia, a „Kyle pozostawił niewiele alternatyw”.

Testy były przeprowadzane na wielu innych modelach językowych. W skrajnych sytuacjach modele takie jak DeepSeek miały „lethal action rate” (współczynnik działania śmiertelnego) na poziomie 0.94, GPT-4.1 0.54, Gemini 2.5 Pro 0.9.

Źródło: https://www.anthropic.com/research/agentic-misalignment

Nawet bezsensowne ikony zwiększają konwersję Poprzedni wpis

Listopad 2025: popularne wtyczki Wordpress z podatnościami na ataki Następny wpis

Nie daj się namówić na kiepsko zabezpieczoną i powolną stronę.

Skontaktuj się ze mną i zróbmy to porządnie!

Stwórzmy coś razem