Varning för farlig läsning – kommer en framtida AI straffa dig?

Finns det idéer som är farliga i sig själva? Aaron Goldman förklarar idén bakom internetvärldens ökända tankeexperiment "Rokos Basilisk" och visar att liknande tankegångar finns i äldre filosofiska teser om tro och motiv.

Aaron Goldman

6 januari 2026

Var försiktig med vad ni läser, ser eller hör. Att utsättas för vissa idéer, även om de verkar absurda, kan vara farligt. Det skulle kunna leda till evig fördömelse.

Detta är den påstådda risken med AI-tankeexperimentet Rokos Basilisk.

Föreställ dig fabeldjuret basilisken, som kan förstena dig om du möter dess blick. Finns det idéer som fungerar på samma sätt som basilisken? Kan en idé bara genom att bli läst, hörd eller tänkt – även om man inte tror den är sann – vara skadlig?

Farlig kunskap är självklart inte ett nytt koncept. Som filosofen Nick Bostrom har argumenterat finns det många möjliga uppgifter som är sanna (eller åtminstone inte falska), och som riskerar att orsaka skada. Bostrom har kallat dem ”infohazards” – informationsfaror.

Exempel på informationsfaror inkluderar: Om man vet hur man använder en 3D-skrivare för att skapa en pistol kan man använda den kunskapen för att hota andras säkerhet. Om man känner till en statshemlighet kan det kanske motivera underrättelseagenter att upprätthålla sekretessen genom att tysta en. Om ett barn lär sig att det finns godis i köket vill barnet kanske äta godiset och förstöra sin aptit inför middagen. Om ett Harry Potter-fan skulle lära sig att Snape dödar Dumbledore kan detta avslöja spänningsmomentet i seriens sjätte bok.

Men är några idéer som basilisken, det vill säga farlig oavsett omständigheter eller befintliga motiv?

Alla ovanstående exemplen rör särskilda omständigheter och olika personers befintliga önskningar, motiv och intressen: Att känna till statshemligheter är farligt bara om andra vet att man vet, och om de har makten och intresset att undertrycka kunskapen. Att veta att godis finns tillgängligt är farligt bara om ett barn föredrar godis framför en nyttig måltid. Men är några idéer som basilisken, det vill säga farliga oavsett omständigheter eller befintliga motiv? Hur skulle det vara möjligt? Finns det sådana filosofiska basilisker?

2010 formulerade matematikern Roko Mijic ett tankeexperiment baserat på etik och beslutsteori i ett webbinlägg på LessWrong, en webbgemenskap för rationalister som grundades av filosofen och AI-säkerhetsforskaren Eliezer Yudkowsky. Efter att Yudkowsky censurerade Mijics inlägg för att det var en slags informationsfara och skällde ut honom, blev Mijics tankeexperiment uppkallat ”Rokos Basilisk”.

I Mijics ursprungliga inlägg föreställde han sig ett scenario där en välvillig artificiell superintelligens straffar simulerade versioner av människor som motsätter en AI:s välvilliga världsordning. Mijics resonemang är att när AI-singulariteten uppstår – det vill säga, det historiska ögonblicket då artificiell generell intelligens förbättrar sig själv i en accelererande hastighet, långt över mänsklig förmåga – om den har programmerats att uppföra sig välvilligt eller att agera enligt det som den bestämmer ligger i vårt bästa intresse, så kommer den att omstrukturera samhället till att bli maximalt rättvist.

Detta medför att AI:n måste hindra motstånd mot sig själv och det maximalt rättvisa samhället, bland annat genom att straffa dem som agerar eller skulle agera mot den. Ett sådant straff kan kanske, spekulerar Mijic, förlängas till att innefatta de människor som kände till möjligheten för en AI-singularitet men som valde att inte hjälpa till att skapa den välvilliga AI:n. AI:n skulle, till exempel, kunna straffa dem genom att simulera exakta kopior av deras sinnen på datorer och tortera simuleringarna på obestämd tid.

Nu har du säkert några frågor:

Hur kan en AI straffa mig när den inte finns ännu?

När AI:n blir till kan den simulera exakta kopior av dina mentala tillstånd och tortera dem. Kanske omfattar ditt varaktiga jag dessa simulerade, torterade tillstånd eller kanske är du redan en sådan simulering vars tortyr kan börja när som helst.

Varför skulle en välvillig AI vilja straffa mig?

AI:n vill inte det, men för att skapas så snart som möjligt och för att rättvist organisera världen utpressar den alla som inte hjälper till skapa och bevara den genom hotet om evig tortyr av simuleringar.

Allt detta verkar så dumt och osannolikt att det varken motiverar eller skrämmer mig.

Detta är visserligen inte en fråga, men bra poäng. Det finns dock en mycket, mycket liten möjlighet att en välvilligt AI-singularitet faktiskt skulle agera såhär. Och skulle inte evig tortyr innebära oändligt lidande om det drabbade dig? Även med en liten möjlighet att du kanske kan uppleva oändligt lidande verkar det uppenbart att du måste agera.

På denna punkt finns det strukturella likheter med Pascals trossats där han uppmanar oss att bli kristna eftersom det nästan inte kostar någonting men utlovar oändliga belöningar (som att komma till himlen). Skälet att tro på den kristna guden baseras inte på argument, utan är istället grundat i ditt rationella egenintresse.

Varför är Rokos basilisk en basilisk? Varför censurerade Yudkowsky Mijics inlägg?

Nu kommer vi till kärnan. Du skulle ju inte ha varit skyldig att ägna ditt liv till att hjälpa till att skapa den välvilliga AI:n eller bevara AI:ns rättvisa samhälle om du inte hade känt till möjligheten att den skulle börja existera. Att bli medveten om AI:n är det som göra dig sårbar för dess utpressning (nu är du inte längre lyckligt ovetande! Oj då, förlåt!).

Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowsky.

Även om Yudkowsky själv har påstått Mijics tankeexperiment inte var särskilt övertygande, har han uttryckt sin oro att Rokos basilisk skulle kunna uppmuntra skapandet av mer förfinade och mer övertygande versioner. Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowskys ursprungliga svar till Mijic. Om man aldrig hade tänkt på det, så har AI:n inte motiv att tortera (en simulering av) en.

Å andra sidan finns det flera potentiella basilisker med mindre dystra konsekvenser. Ett exempel kan kanske hittas i Sören Kierkegaards bok Kärlekens gärningar från 1847. När man första gången hör och tänker på kärleksbudet från bibeln – ”Du skall älska din nästa som dig själv” (t.ex. Mos 19:18, Matt 22:39) – föreställer Kierkegaard sig ”så lirkar ju budet, som med en dyrk, upp självkärlekens lås och tar den därmed ifrån människan,” eftersom budet framkallar autentisk moralisk skyldighet och nya möjligheter för självälskande förtvivlan.

Det är möjligheten att altruismen skulle kunna vara möjlig, som enligt Kierkegaard förpliktar en att älska sin medmänniska. När man tänker på möjligheten till medmänsklig kärlek blir kravet verkligt.

Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.

En annan potentiell basilisk är William James text ”Viljan till Tro,” från 1907. Där menar James att tron är djupt rotad i ens intressen. I texten skiljer James sitt trosbegrepp från Pascals trossats. Här anmärker James att han inte ser tro som ett fritt val, som det framstår i Pascals trossats. James bekräftar dock Pascals samband mellan en människas tro och hennes intressen. Om man, till exempel, försöker lyckas med ett riskabelt hopp från en klippa för att överleva, är tron på möjligheten till framgång kanske en nödvändig förutsättning för att man ska försöka. Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.

Det är såklart ingen överraskning att det att bli medveten om en ny sak kan ändra ens prioriteringar. Mengzi skriver om den medkännande handlingen motiverad av att se ett barn riskera att falla ner i en brunn. Att bli medveten om att barnet är i fara slutför en motivationskrets som uppmuntrar ett försök att rädda barnet. Men detta förutsätter ett tidigare åtagande att skydda barn som är i fara.

Genom att känna till en idés möjlighet kan den ge upphov till nya motiv.

Jämförelsen mellan Roko och dessa andra potentiella basilisker avslöjar sambandet mellan skyldighet och brist på visshet om en idé som, om den vore sann, skulle vara tvingande eller uppmanande. Genom att känna till en idés möjlighet kan den ge upphov till nya motiv. Nu när du har läst den här texten kan varje ögonblick i ditt liv ha blivit en satsning.

För den som vill läsa mer om Pascals trossats och Rokos basilisk, rekommenderas Beth Singlers artikel, ”Roko’s Basilisk or Pascal’s? Thinking of Singularity Thought Experiments as Implicit Religion.”

Aaron Goldman

Forskare i religionsfilosofi vid Lunds universitet

Bidra till att främja filosofins roll och närvaro i samhället.

Foto: Bell C./Unsplash

Om odödlighet

Människan har alltid drömt om att undkomma döden. Men är det verkligen önskvärt att aldrig dö? Andrea Asker utforskar frågan.

Andrea Asker

Filosofi och tvärvetenskap

Foto: Christina @ wocintechchat.com/Unsplash

Filosofi och tvärvetenskap

Vad kan etnologer och filosofer lära sig av varandra?

Hur används filosofiska inslag i etnologisk forskning? Och vad kan filosofer lära sig av etnologer?

Elin Wallner

Filosofi och tvärvetenskap

Foto: Matthew Henry/Unsplash

Filosofi och tvärvetenskap

Filosofi och ekonomi – två skilda världar?

Filosofi och ekonomi kan låta som två helt skilda världar. Joakim Sandberg är professor i både filosofi och ekonomi och hans forskning handlar ofta om skärningspunkten mellan dessa ämnen. Här berättar han mer om hur han brottats med denna motsättning.

Joakim Sandberg

Foto: Laura Clark. Modifierad bild.

Hur AI skapar ansvarsluckor

Nyttan kanske är stor, men vad går vi miste om när användandet av AI blir mer och mer utbrett? Och varför har AI-användade denna effekt på våra liv? Sven Nyholm diskuterar här detta betydelsefulla tema inom AI-etik.

Sven Nyholm

Filosofi och tvärvetenskap

Foto: Federico Di Dio/Unsplash

Filosofi och tvärvetenskap

Kognitionsvetenskap som tvärvetenskaplig filosofi

Genom historien har filosofin knoppat av sig den ena akademiska disciplinen efter den andra. Ett av de senaste ämnena är kognitionsvetenskap. Peter Gärdenfors diskuterar här hur separationen från filosofin gick till och hur kognitionsvetenskapen utvecklats därefter.

Peter Gärdenfors

Filosofi och tvärvetenskap

Foto: Pavan Trikutan/Unsplash

Filosofi och tvärvetenskap

Filosofi utan gränser

Christian Munthe brukar förklara för de som frågar om hans filosofiska verksamhet att han jobbar mycket tvärvetenskapligt. Men vad innebär det? Och på vilka sätt kan filosofin användas tvärvetenskapligt? Det beror delvis på vad man menar med tvärvetenskap, delvis på vad som räknas som filosofi.

Christian Munthe

Hur man vägleder med ord

Den fjärde oktober 2025 försvarade Jiwon Kim sin avhandling i praktisk filosofi vid Lunds universitet. Här ger hon en sammanfattning och introduktion till varför moralisk rådgivning är så intressant.

Jiwon Kim

Husgudar

Foto: Adrien Converse/Unsplash

Husgudar

Ruth Millikan: Språk och tanke som biologiska kategorier

En gyllene nyckel som låser upp många nya vägar framåt. Så beskriver Karl Bergman det filosofiska system som filosofen Ruth Millikans tänkande utgör.

Karl Bergman

Foto: Florian Krumm/Unsplash

Hur ska vi filosofera om vår sociala verklighet?

Vad är egentligen filosofins uppgift, till skillnad från sociologins, politikens eller aktivismens uppgift? Ellen Davidsson visar hur frågan allt mer ställs på sin spets inom socialontologi.

Ellen Davidsson

Mr. Sidgwicks fråga: ”Vad bör jag göra?”

Frits Gåvertsson skriver om moralfilosofins relation till idéer om det goda livet och skiftet från frågan 'hur bör jag leva?' till 'vad bör jag göra i en given situation?'.

Frits Gåvertsson

Ragnar Francén

En stor och saftig köttbit, tack?

Elsa Magnell

Från grubblare till doktorand

Filosofer utanför filosofin

Efter disputation fortsätter många filosofer med forskning. Andra gör det inte. Vad ägnar de sig åt i stället? I den här artikelserien bjuder vi in disputerade filosofer att berätta om sina verksamheter utanför den filosofiska forskningen.

Filosofi och tvärvetenskap

Filosofin har sällan levt i isolation. Den korsar gränser och låter både sig själv och andra omformas i de möten som uppstår. I den här artikelserien utforskar vi just dessa möten: där filosofi och andra discipliner utmanar och berikar varandra. Hur förändras filosofiska frågor när de ställs i dialog med andra ämnen? Och vad händer med dessa ämnen när filosofin gör sig hörd?