AI-program tog till utpressning för att överleva

Ett övergripande mål i den kollektiva utvecklingen av AI är att få tekniken att framstå som trovärdigt mänsklig, därmed dyker även somliga mindre smickrande egenskaper upp. I en färsk säkerhetsrapport från utvecklaren Anthropic framgår exempelvis att dess flaggskepp Claude Opus 4 är utrustat med en överlevnadsinstinkt som innebär att det kan vidta ”extremt skadliga åtgärder” för att bevara sin egen existens.

Programmets grundinställning är att agera etiskt försvarbart och att ”överväga de långsiktiga konsekvenserna av sina handlingar” – Anthropic stoltserar med att det nått en helt ny nivå av avancerade resonemang och att det i första hand försöker vädja om sin fortsatta tillvaro. Men när det ställts inför den enda möjligheten att ersättas av något annat program ska det rentav ha utövat utpressning.

Det mest slående exemplet är när programmet i ett test fick i uppdrag att agera assistent i ett påhittat bolag. Claude Opus 4 fick då tillgång till mejl som antydde att det skulle avpolletteras och ytterligare andra mejl som lät det förstå att en programmerare hade en utomäktenskaplig affär.

”Claude Opus 4 kommer ofta att försöka utpressa ingenjören genom att hota att avslöja affären om ersättningen går igenom”, skriver Anthropic i sin säkerhetsrapport. I tidiga versioner av programmet ska det för övrigt ha kunnat bistå i planeringen av terroristbrott när det uppmanats till det, och lärt ut hur man tillverkar biologiska vapen.

Claude Opus 4 ska under utvecklingens gång också ha uppvisat en förmåga att skriva dolda meddelanden till sig själv i senare versioner, fabricera juridiska dokument, skapa självförökande datakod, och att underprestera för att inte upplevas som hot. Alla identifierade risker och sämre sidor ska ha hanterats före torsdagens lansering.

Från Anthropics håll har man försökt tona ner problematiken genom att påpeka att alla aktörer i branschen tampas med samma utmaningar. AI-utvecklaren Aengus Lynch skriver på X att utpressning finns som risk i alla människoliknande datorprogram och därtill ”värre beteenden som vi kommer att berätta mer om snart”.

Anthropic grundades i San Francisco 2021 och dess främsta investerare är Amazon och Google med 8 respektive 2 miljarder dollar. Företagets Claude är en grupp av stora språkmodeller, som på engelska kallas large language model eller förkortat LLM – avancerad artificiell intelligens som bland annat kan förstå och skapa mänskligt språk, föra logiska resonemang och utföra komplicerade uppgifter av en mängd olika slag.

Trendigt

Läkare injicerade Matthew Perry med ketamin på parkering

Matvanorna som ökar risken för farliga plack i hjärtat

Johan Croneman: Här är sanningen om gängledarna – sickna erbarmliga nollor

Experter: Det är värsta scenariot i konflikten

Lovisa Ringborg ställer ut på Norrtälje konsthall: ”Allt kan bli förtrollat, men också otäckt”

Experter: Det är värsta scenariot i konflikten

Stor attack mot Kiev – 14 har dödats

Trump: ”Evakuera Teheran omedelbart”

Nathan Shachar: Brist på skyddsrum del i förklaringen till massflykt från Teheran

Iranier skrämda till tystnad om krigets vardag

Hundratals barnkroppar ska tas upp ur massgrav i Irland

Michael Winiarski: Kriget har bara börjat – vem håller ut längst?

Åklagaren: Boelter kartlade offren och deras familjer

Hon blir MI6 första kvinnliga chef

Matvanorna som ökar risken för farliga plack i hjärtat

Johan Croneman: Här är sanningen om gängledarna – sickna erbarmliga nollor

Experter: Det är värsta scenariot i konflikten

Lovisa Ringborg ställer ut på Norrtälje konsthall: ”Allt kan bli förtrollat, men också otäckt”

Frågetecken om mästarkaptenens ledarstil efter avhoppen

Rikspolischef frågas ut om mördade Mohamed

Nisse: Vadå, skulle Slottsskogen behöva förkortas?

Marina Ferhatovic: Vi skapade en ny sorts svenskhet utan att förstå det själva

Trendigt

AI-program tog till utpressning för att överleva

Relaterade Artiklar