Ett övergripande mål i den kollektiva utvecklingen av AI är att få tekniken att framstå som trovärdigt mänsklig, därmed dyker även somliga mindre smickrande egenskaper upp. I en färsk säkerhetsrapport från utvecklaren Anthropic framgår exempelvis att dess flaggskepp Claude Opus 4 är utrustat med en överlevnadsinstinkt som innebär att det kan vidta ”extremt skadliga åtgärder” för att bevara sin egen existens.
Programmets grundinställning är att agera etiskt försvarbart och att ”överväga de långsiktiga konsekvenserna av sina handlingar” – Anthropic stoltserar med att det nått en helt ny nivå av avancerade resonemang och att det i första hand försöker vädja om sin fortsatta tillvaro. Men när det ställts inför den enda möjligheten att ersättas av något annat program ska det rentav ha utövat utpressning.
Det mest slående exemplet är när programmet i ett test fick i uppdrag att agera assistent i ett påhittat bolag. Claude Opus 4 fick då tillgång till mejl som antydde att det skulle avpolletteras och ytterligare andra mejl som lät det förstå att en programmerare hade en utomäktenskaplig affär.
”Claude Opus 4 kommer ofta att försöka utpressa ingenjören genom att hota att avslöja affären om ersättningen går igenom”, skriver Anthropic i sin säkerhetsrapport. I tidiga versioner av programmet ska det för övrigt ha kunnat bistå i planeringen av terroristbrott när det uppmanats till det, och lärt ut hur man tillverkar biologiska vapen.
Claude Opus 4 ska under utvecklingens gång också ha uppvisat en förmåga att skriva dolda meddelanden till sig själv i senare versioner, fabricera juridiska dokument, skapa självförökande datakod, och att underprestera för att inte upplevas som hot. Alla identifierade risker och sämre sidor ska ha hanterats före torsdagens lansering.
Från Anthropics håll har man försökt tona ner problematiken genom att påpeka att alla aktörer i branschen tampas med samma utmaningar. AI-utvecklaren Aengus Lynch skriver på X att utpressning finns som risk i alla människoliknande datorprogram och därtill ”värre beteenden som vi kommer att berätta mer om snart”.
Anthropic grundades i San Francisco 2021 och dess främsta investerare är Amazon och Google med 8 respektive 2 miljarder dollar. Företagets Claude är en grupp av stora språkmodeller, som på engelska kallas large language model eller förkortat LLM – avancerad artificiell intelligens som bland annat kan förstå och skapa mänskligt språk, föra logiska resonemang och utföra komplicerade uppgifter av en mängd olika slag.