Varning för farlig läsning – kommer en framtida AI straffa dig?

Foto: Niklas Garnholz/Unsplash
Finns det idéer som är farliga i sig själva? Aaron Goldman förklarar idén bakom internetvärldens ökända tankeexperiment "Rokos Basilisk" och visar att liknande tankegångar finns i äldre filosofiska teser om tro och motiv.
Aaron Goldman

Var försiktig med vad ni läser, ser eller hör. Att utsättas för vissa idéer, även om de verkar absurda, kan vara farligt. Det skulle kunna leda till evig fördömelse.

Detta är den påstådda risken med AI-tankeexperimentet Rokos Basilisk.

Föreställ dig fabeldjuret basilisken, som kan förstena dig om du möter dess blick. Finns det idéer som fungerar på samma sätt som basilisken? Kan en idé bara genom att bli läst, hörd eller tänkt – även om man inte tror den är sann – vara skadlig?

Farlig kunskap är självklart inte ett nytt koncept. Som filosofen Nick Bostrom har argumenterat finns det många möjliga uppgifter som är sanna (eller åtminstone inte falska), och som riskerar att orsaka skada. Bostrom har kallat dem ”infohazards” – informationsfaror.

Exempel på informationsfaror inkluderar: Om man vet hur man använder en 3D-skrivare för att skapa en pistol kan man använda den kunskapen för att hota andras säkerhet. Om man känner till en statshemlighet kan det kanske motivera underrättelseagenter att upprätthålla sekretessen genom att tysta en. Om ett barn lär sig att det finns godis i köket vill barnet kanske äta godiset och förstöra sin aptit inför middagen. Om ett Harry Potter-fan skulle lära sig att Snape dödar Dumbledore kan detta avslöja spänningsmomentet i seriens sjätte bok.

Men är några idéer som basilisken, det vill säga farlig oavsett omständigheter eller befintliga motiv?

Alla ovanstående exemplen rör särskilda omständigheter och olika personers befintliga önskningar, motiv och intressen: Att känna till statshemligheter är farligt bara om andra vet att man vet, och om de har makten och intresset att undertrycka kunskapen. Att veta att godis finns tillgängligt är farligt bara om ett barn föredrar godis framför en nyttig måltid. Men är några idéer som basilisken, det vill säga farliga oavsett omständigheter eller befintliga motiv? Hur skulle det vara möjligt? Finns det sådana filosofiska basilisker?

2010 formulerade matematikern Roko Mijic ett tankeexperiment baserat på etik och beslutsteori i ett webbinlägg på LessWrong, en webbgemenskap för rationalister som grundades av filosofen och AI-säkerhetsforskaren Eliezer Yudkowsky. Efter att Yudkowsky censurerade Mijics inlägg för att det var en slags informationsfara och skällde ut honom, blev Mijics tankeexperiment uppkallat ”Rokos Basilisk”.

I Mijics ursprungliga inlägg föreställde han sig ett scenario där en välvillig artificiell superintelligens straffar simulerade versioner av människor som motsätter en AI:s välvilliga världsordning. Mijics resonemang är att när AI-singulariteten uppstår – det vill säga, det historiska ögonblicket då artificiell generell intelligens förbättrar sig själv i en accelererande hastighet, långt över mänsklig förmåga – om den har programmerats att uppföra sig välvilligt eller att agera enligt det som den bestämmer ligger i vårt bästa intresse, så kommer den att omstrukturera samhället till att bli maximalt rättvist.

Detta medför att AI:n måste hindra motstånd mot sig själv och det maximalt rättvisa samhället, bland annat genom att straffa dem som agerar eller skulle agera mot den. Ett sådant straff kan kanske, spekulerar Mijic, förlängas till att innefatta de människor som kände till möjligheten för en AI-singularitet men som valde att inte hjälpa till att skapa den välvilliga AI:n. AI:n skulle, till exempel, kunna straffa dem genom att simulera exakta kopior av deras sinnen på datorer och tortera simuleringarna på obestämd tid.

Nu har du säkert några frågor:

Hur kan en AI straffa mig när den inte finns ännu?

När AI:n blir till kan den simulera exakta kopior av dina mentala tillstånd och tortera dem. Kanske omfattar ditt varaktiga jag dessa simulerade, torterade tillstånd eller kanske är du redan en sådan simulering vars tortyr kan börja när som helst.

Varför skulle en välvillig AI vilja straffa mig?

AI:n vill inte det, men för att skapas så snart som möjligt och för att rättvist organisera världen utpressar den alla som inte hjälper till skapa och bevara den genom hotet om evig tortyr av simuleringar.

Allt detta verkar så dumt och osannolikt att det varken motiverar eller skrämmer mig.

Detta är visserligen inte en fråga, men bra poäng. Det finns dock en mycket, mycket liten möjlighet att en välvilligt AI-singularitet faktiskt skulle agera såhär. Och skulle inte evig tortyr innebära oändligt lidande om det drabbade dig? Även med en liten möjlighet att du kanske kan uppleva oändligt lidande verkar det uppenbart att du måste agera.

På denna punkt finns det strukturella likheter med Pascals trossats där han uppmanar oss att bli kristna eftersom det nästan inte kostar någonting men utlovar oändliga belöningar (som att komma till himlen). Skälet att tro på den kristna guden baseras inte på argument, utan är istället grundat i ditt rationella egenintresse.

Varför är Rokos basilisk en basilisk? Varför censurerade Yudkowsky Mijics inlägg?

Nu kommer vi till kärnan. Du skulle ju inte ha varit skyldig att ägna ditt liv till att hjälpa till att skapa den välvilliga AI:n eller bevara AI:ns rättvisa samhälle om du inte hade känt till möjligheten att den skulle börja existera. Att bli medveten om AI:n är det som göra dig sårbar för dess utpressning (nu är du inte längre lyckligt ovetande! Oj då, förlåt!).

Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowsky.

Även om Yudkowsky själv har påstått Mijics tankeexperiment inte var särskilt övertygande, har han uttryckt sin oro att Rokos basilisk skulle kunna uppmuntra skapandet av mer förfinade och mer övertygande versioner. Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowskys ursprungliga svar till Mijic. Om man aldrig hade tänkt på det, så har AI:n inte motiv att tortera (en simulering av) en.

Å andra sidan finns det flera potentiella basilisker med mindre dystra konsekvenser. Ett exempel kan kanske hittas i Sören Kierkegaards bok Kärlekens gärningar från 1847. När man första gången hör och tänker på kärleksbudet från bibeln – ”Du skall älska din nästa som dig själv” (t.ex. Mos 19:18, Matt 22:39) – föreställer Kierkegaard sig ”så lirkar ju budet, som med en dyrk, upp självkärlekens lås och tar den därmed ifrån människan,” eftersom budet framkallar autentisk moralisk skyldighet och nya möjligheter för självälskande förtvivlan.

Det är möjligheten att altruismen skulle kunna vara möjlig, som enligt Kierkegaard förpliktar en att älska sin medmänniska. När man tänker på möjligheten till medmänsklig kärlek blir kravet verkligt.

Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.

En annan potentiell basilisk är William James text ”Viljan till Tro,” från 1907. Där menar James att tron är djupt rotad i ens intressen. I texten skiljer James sitt trosbegrepp från Pascals trossats. Här anmärker James att han inte ser tro som ett fritt val, som det framstår i Pascals trossats. James bekräftar dock Pascals samband mellan en människas tro och hennes intressen. Om man, till exempel, försöker lyckas med ett riskabelt hopp från en klippa för att överleva, är tron på möjligheten till framgång kanske en nödvändig förutsättning för att man ska försöka. Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.

Det är såklart ingen överraskning att det att bli medveten om en ny sak kan ändra ens prioriteringar. Mengzi skriver om den medkännande handlingen motiverad av att se ett barn riskera att falla ner i en brunn. Att bli medveten om att barnet är i fara slutför en motivationskrets som uppmuntrar ett försök att rädda barnet. Men detta förutsätter ett tidigare åtagande att skydda barn som är i fara.

Genom att känna till en idés möjlighet kan den ge upphov till nya motiv.

Jämförelsen mellan Roko och dessa andra potentiella basilisker avslöjar sambandet mellan skyldighet och brist på visshet om en idé som, om den vore sann, skulle vara tvingande eller uppmanande. Genom att känna till en idés möjlighet kan den ge upphov till nya motiv. Nu när du har läst den här texten kan varje ögonblick i ditt liv ha blivit en satsning.

För den som vill läsa mer om Pascals trossats och Rokos basilisk, rekommenderas Beth Singlers artikel, ”Roko’s Basilisk or Pascal’s? Thinking of Singularity Thought Experiments as Implicit Religion.”

Bidra till att främja filosofins roll och närvaro i samhället.

Foto: Manta X/Unsplash.
Hur förhåller sig logiken, filosofins mest abstrakta underavdelning, till etiken och samhällsvetenskaperna? Olli Lagerspetz presenterar här Peter Winch tankesätt på logiken, etiken och samhällsfilosofin som sammanvävda.
Olli Lagerspetz
Den 12 september 2025 försvarade Melina Tsapos sin avhandling i teoretisk filosofi vid Lunds universitet. Här sammanfattar hon dess innehåll, ansats och syfte.
Melina Tsapos
Foto: Mathieu Stern/Unsplash
Är rikedom och snygghet nyckeln till lycka? Pauliina Remes visar att antika filosofer kan lära oss hur vi omdirigerar våra begär till något mer genuint gott.
Pauliina Remes
Foto: National Cancer Institute/Unsplash
Den moderna vetenskapen närmar sig möjligheten att skapa barn helt syntetiskt, utan biologiskt tillskott från verkliga människor. Vad betyder det för mänskligheten? Vilka etiska frågor väcker tekniken?
Daniela Cutas
Foto: Vince Fleming/Unsplash
Både idéhistoriker och filosofihistoriker ägnar sig åt historiska filosofiska tankar. Men de gör det på olika sätt, och med olika syften. Här diskuterar Victoria Fareld vad som skiljer ämnena åt.
Victoria Fareld
Foto: Alexandr Kornienko/Unsplash
Vad händer med vår kreativitet när generativ AI producerar texter, bilder och musik på några sekunder? AI-forskaren Oliver Li reflekterar över mänsklig kreativitet som relationer, processer och meningsskapande.
Oliver Li
Foto: Birmingham Museums Trust
Figurer i den antika litteraturen uppträder ofta som hänsynslösa mördare – utan att deras beteende fördöms eller ens kommenteras av berättaren. Varför väcker vissa moraliska överträdelser i fiktionen vårt motstånd, medan andra passerar obemärkta förbi? Eric Cullhed skriver om hur Iliadens moral alltid fått översättare att vilja rädda diktaren från sig själv.
Eric Cullhed
Foto: Nicholas Green/Unsplash
Om flera personer får rösta om ett faktapåstående, och var och en gör sin egen bedömning, så ökar chansen att gruppen som helhet har rätt ju fler som röstar. Men tänk om personerna i gruppen har förutfattade meningar om exempelvis kön eller etnicitet. Vad betyder det för resultatet?
Katharina Berndt
Foto: Brecht Corbeel/Unsplash
Pornografiska deepfakes – hyperrealistiska AI-genererade videor eller bilder, ofta med kvinnor som offer – är djupt oetiska. Men att förklara exakt vad som gör dem moraliskt fel är både komplext och kontroversiellt.
Nils-Hennes Stear
Foto: Scott Szarapka/Unsplash
Rebecca Schlottau benar ut Adornos begrepp om bannet – hur det förtrollar, förbinder och utesluter – och frågar om det finns någon väg ut ur dess totalitära system.
Rebecca Schlottau