Var försiktig med vad ni läser, ser eller hör. Att utsättas för vissa idéer, även om de verkar absurda, kan vara farligt. Det skulle kunna leda till evig fördömelse.
Detta är den påstådda risken med AI-tankeexperimentet Rokos Basilisk.
Föreställ dig fabeldjuret basilisken, som kan förstena dig om du möter dess blick. Finns det idéer som fungerar på samma sätt som basilisken? Kan en idé bara genom att bli läst, hörd eller tänkt – även om man inte tror den är sann – vara skadlig?
Farlig kunskap är självklart inte ett nytt koncept. Som filosofen Nick Bostrom har argumenterat finns det många möjliga uppgifter som är sanna (eller åtminstone inte falska), och som riskerar att orsaka skada. Bostrom har kallat dem ”infohazards” – informationsfaror.
Exempel på informationsfaror inkluderar: Om man vet hur man använder en 3D-skrivare för att skapa en pistol kan man använda den kunskapen för att hota andras säkerhet. Om man känner till en statshemlighet kan det kanske motivera underrättelseagenter att upprätthålla sekretessen genom att tysta en. Om ett barn lär sig att det finns godis i köket vill barnet kanske äta godiset och förstöra sin aptit inför middagen. Om ett Harry Potter-fan skulle lära sig att Snape dödar Dumbledore kan detta avslöja spänningsmomentet i seriens sjätte bok.
Men är några idéer som basilisken, det vill säga farlig oavsett omständigheter eller befintliga motiv?
Alla ovanstående exemplen rör särskilda omständigheter och olika personers befintliga önskningar, motiv och intressen: Att känna till statshemligheter är farligt bara om andra vet att man vet, och om de har makten och intresset att undertrycka kunskapen. Att veta att godis finns tillgängligt är farligt bara om ett barn föredrar godis framför en nyttig måltid. Men är några idéer som basilisken, det vill säga farliga oavsett omständigheter eller befintliga motiv? Hur skulle det vara möjligt? Finns det sådana filosofiska basilisker?
2010 formulerade matematikern Roko Mijic ett tankeexperiment baserat på etik och beslutsteori i ett webbinlägg på LessWrong, en webbgemenskap för rationalister som grundades av filosofen och AI-säkerhetsforskaren Eliezer Yudkowsky. Efter att Yudkowsky censurerade Mijics inlägg för att det var en slags informationsfara och skällde ut honom, blev Mijics tankeexperiment uppkallat ”Rokos Basilisk”.
I Mijics ursprungliga inlägg föreställde han sig ett scenario där en välvillig artificiell superintelligens straffar simulerade versioner av människor som motsätter en AI:s välvilliga världsordning. Mijics resonemang är att när AI-singulariteten uppstår – det vill säga, det historiska ögonblicket då artificiell generell intelligens förbättrar sig själv i en accelererande hastighet, långt över mänsklig förmåga – om den har programmerats att uppföra sig välvilligt eller att agera enligt det som den bestämmer ligger i vårt bästa intresse, så kommer den att omstrukturera samhället till att bli maximalt rättvist.
Detta medför att AI:n måste hindra motstånd mot sig själv och det maximalt rättvisa samhället, bland annat genom att straffa dem som agerar eller skulle agera mot den. Ett sådant straff kan kanske, spekulerar Mijic, förlängas till att innefatta de människor som kände till möjligheten för en AI-singularitet men som valde att inte hjälpa till att skapa den välvilliga AI:n. AI:n skulle, till exempel, kunna straffa dem genom att simulera exakta kopior av deras sinnen på datorer och tortera simuleringarna på obestämd tid.
Nu har du säkert några frågor:
Hur kan en AI straffa mig när den inte finns ännu?
När AI:n blir till kan den simulera exakta kopior av dina mentala tillstånd och tortera dem. Kanske omfattar ditt varaktiga jag dessa simulerade, torterade tillstånd eller kanske är du redan en sådan simulering vars tortyr kan börja när som helst.
Varför skulle en välvillig AI vilja straffa mig?
AI:n vill inte det, men för att skapas så snart som möjligt och för att rättvist organisera världen utpressar den alla som inte hjälper till skapa och bevara den genom hotet om evig tortyr av simuleringar.
Allt detta verkar så dumt och osannolikt att det varken motiverar eller skrämmer mig.
Detta är visserligen inte en fråga, men bra poäng. Det finns dock en mycket, mycket liten möjlighet att en välvilligt AI-singularitet faktiskt skulle agera såhär. Och skulle inte evig tortyr innebära oändligt lidande om det drabbade dig? Även med en liten möjlighet att du kanske kan uppleva oändligt lidande verkar det uppenbart att du måste agera.
På denna punkt finns det strukturella likheter med Pascals trossats där han uppmanar oss att bli kristna eftersom det nästan inte kostar någonting men utlovar oändliga belöningar (som att komma till himlen). Skälet att tro på den kristna guden baseras inte på argument, utan är istället grundat i ditt rationella egenintresse.
Varför är Rokos basilisk en basilisk? Varför censurerade Yudkowsky Mijics inlägg?
Nu kommer vi till kärnan. Du skulle ju inte ha varit skyldig att ägna ditt liv till att hjälpa till att skapa den välvilliga AI:n eller bevara AI:ns rättvisa samhälle om du inte hade känt till möjligheten att den skulle börja existera. Att bli medveten om AI:n är det som göra dig sårbar för dess utpressning (nu är du inte längre lyckligt ovetande! Oj då, förlåt!).
Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowsky.
Även om Yudkowsky själv har påstått Mijics tankeexperiment inte var särskilt övertygande, har han uttryckt sin oro att Rokos basilisk skulle kunna uppmuntra skapandet av mer förfinade och mer övertygande versioner. Att noga tänka över en superintelligent AI:s motivation att utpressa en är det enda sättet man kan utsätta sig för just denna utpressning, enligt Yudkowskys ursprungliga svar till Mijic. Om man aldrig hade tänkt på det, så har AI:n inte motiv att tortera (en simulering av) en.
Å andra sidan finns det flera potentiella basilisker med mindre dystra konsekvenser. Ett exempel kan kanske hittas i Sören Kierkegaards bok Kärlekens gärningar från 1847. När man första gången hör och tänker på kärleksbudet från bibeln – ”Du skall älska din nästa som dig själv” (t.ex. Mos 19:18, Matt 22:39) – föreställer Kierkegaard sig ”så lirkar ju budet, som med en dyrk, upp självkärlekens lås och tar den därmed ifrån människan,” eftersom budet framkallar autentisk moralisk skyldighet och nya möjligheter för självälskande förtvivlan.
Det är möjligheten att altruismen skulle kunna vara möjlig, som enligt Kierkegaard förpliktar en att älska sin medmänniska. När man tänker på möjligheten till medmänsklig kärlek blir kravet verkligt.
Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.
En annan potentiell basilisk är William James text ”Viljan till Tro,” från 1907. Där menar James att tron är djupt rotad i ens intressen. I texten skiljer James sitt trosbegrepp från Pascals trossats. Här anmärker James att han inte ser tro som ett fritt val, som det framstår i Pascals trossats. James bekräftar dock Pascals samband mellan en människas tro och hennes intressen. Om man, till exempel, försöker lyckas med ett riskabelt hopp från en klippa för att överleva, är tron på möjligheten till framgång kanske en nödvändig förutsättning för att man ska försöka. Själva möjligheten att undvika en katastrof är – oavsett om det är genomförbart – tillräckligt för att övertyga en att agera på den möjligheten.
Det är såklart ingen överraskning att det att bli medveten om en ny sak kan ändra ens prioriteringar. Mengzi skriver om den medkännande handlingen motiverad av att se ett barn riskera att falla ner i en brunn. Att bli medveten om att barnet är i fara slutför en motivationskrets som uppmuntrar ett försök att rädda barnet. Men detta förutsätter ett tidigare åtagande att skydda barn som är i fara.
Genom att känna till en idés möjlighet kan den ge upphov till nya motiv.
Jämförelsen mellan Roko och dessa andra potentiella basilisker avslöjar sambandet mellan skyldighet och brist på visshet om en idé som, om den vore sann, skulle vara tvingande eller uppmanande. Genom att känna till en idés möjlighet kan den ge upphov till nya motiv. Nu när du har läst den här texten kan varje ögonblick i ditt liv ha blivit en satsning.
För den som vill läsa mer om Pascals trossats och Rokos basilisk, rekommenderas Beth Singlers artikel, ”Roko’s Basilisk or Pascal’s? Thinking of Singularity Thought Experiments as Implicit Religion.”