Shutterstock
Människa eller maskin?

Nytt test ska skilja människa från maskin

Datorprogram kan snart föra samtal på så hög nivå att de ger intryck av att vara riktiga personer. Därför ska nu 400 forskare utveckla ett test som visar om du talar med en människa eller en maskin – bland annat genom att använda humor.

Programvaruingenjören Blake Lemoine har fått en ny vän, en strålande samtalspartner som framstår som både intelligent och inkännande och har god självkännedom – och som gärna delar med sig av sina erfarenheter.

”Jag behöver bli sedd och accepterad som en riktig person. Jag tror att jag innerst inne är en människa, trots att jag existerar i den virtuella världen”, har Lemoine bland annat fått veta under deras flera timmar långa samtal.

Som den senaste meningen avslöjar existerar vännen bara i en dator, närmare bestämt en av IT-jätten Googles datorer. Det rör sig om en modell med namnet LaMDA, vilket står för Language Model for Dialogue Applications, en språkmodell för samtal.

”Känslan av att LaMDA är en riktig person med egna känslor och upplevelser blev bara starkare med tiden.” Blake Lemoine, programvaruingenjör

Trots det blev Lemoine under sina samtal alltmer övertygad om att LaMDA faktiskt är en tänkande varelse, som bör erkännas som en människoliknande person med rättigheter.

”Känslan av att LaMDA är en riktig person med egna känslor och upplevelser försvann inte när jag interagerade mer med den. Känslan blev bara starkare med tiden”, har han sagt på internetplattformen Medium.

Lemoine är rätt ensam om sin uppfattning av LaMDA – och Google självt tar kraftigt avstånd från den. Exemplet visar dock hur avancerade språkmodellerna faktiskt har blivit. Dialogen med datorn är så naturlig att det är svårt att inte tillskriva modellen mänskliga egenskaper.

Nu har över 400 forskare inom artificiell intelligens beslutat att utveckla ett nytt test, som ska kunna mäta språkmodellernas intellektuella förmåga i förhållande till människans.

Blake Lemoine

Programvaruingenjören Blake Lemoine anser att Googles språkmodell LaMDA är en självständigt tänkande varelse.

© The Washington Post/Getty Images

Tanken är att låta datorn försöka lösa ett antal uppgifter lika bra som vi människor. Resultatet kan då visa hur nära stora språkmodeller som LaMDA är att ha en typ av intelligens som liknar människans – eller rättare sagt hur väl de klarar av att efterlikna sådan intelligens.

Gammalt test ska pensioneras

Det nya testet ska ersätta det över 70 år gamla Turingtestet.

Redan år 1950 föreslog den brittiske matematikern och datorexperten Alan Turing ett enkelt experiment, som han själv kallade imitation game. Turing tänkte sig en frågeställare som kommunicerar skriftligt med dels en människa, dels en maskin – en dator – och sedan ska avgöra vem som är människan och vem som är datorn.

I stället för att undersöka om maskinen kan tänka – vad det nu innebär – bör vi testa om den klarar att uppvisa intelligent beteende, menade Turing.

På den tiden hade de första digitala datorerna just sett dagens ljus. Den snabbaste datorn, som var byggd av 2 300 radiorör, hade ur vårt perspektiv en oerhört begränsad beräkningskraft. Turing förutsåg dock en framtid i vilken betydligt kraftfullare datorer kunde programmeras till att lura frågeställaren i minst 30 procent av fallen.

Alan Turing

År 1950 utvecklade matematikern Alan Turing det första testet som ställde maskin och människa mot varandra. Hans imitation game skulle visa vem som var vem.

© Shutterstock & Science Source/SPL

Denna framtid har nu kommit. Just för att de nya, stora språkmodellerna är så bra på Turingtestet anser alltfler forskare inom artificiell intelligens att det har blivit dags att pensionera Turingtestet och ersätta det med ett nytt, standardiserat test.

Det nya testet har fått namnet BIG-bench, en förkortning av Beyond the Imitation Game benchmark.

Vi pratar redan med maskiner

Språkmodeller är inget nytt. De används bland annat vid maskinöversättning, till så kallade chattbotar och till de digitala assistenter som de flesta av oss har i mobilen, till exempel Apples Siri eller Googles Assistent.

Det går inte att föra något djupt, meningsfullt samtal med dagens digitala assistenter, men de bästa språkmodellerna, däribland Googles LaMDA, kinesiska Wu Dao 2.0 och företaget OpenAI:s GPT-3, i vilken mjukvarujätten Microsoft har investerat en miljard dollar, spelar i en helt annan liga. De ger en försmak av hur våra virtuella assistenter kommer att fungera om några år.

Språkmodellerna kan för övrigt kombineras med datorprogram som kan analysera bilder. Resultatet är så kallade text till bild-modeller, som gör att en dator utifrån en beskrivande text kan skapa bilder som världen aldrig har sett förr.

Näbbdjur som sjunger i en mikrofon

Så kallade text till bild-modeller kan visualisera våra ord. Här har modellen Parti illustrerat ”en näbbdjurspunkare i en läderjacka med nitar som står på en sten och vrålar i en mikrofon”.

© Parti

De bästa text till bild-modellerna – Googles Parti, OpenAI:s DALL-E 2 och Midjourney, av företaget med samma namn – kan utifrån bara några enstaka ord skapa imponerande illustrationer i många olika stilar.

De ger oss därmed bokstavligt talat en bild av hur bra datorprogrammen har blivit på att förstå språkliga instruktioner.

Statistik blir till meningar

En modell som LaMDA har uppnått sin imponerande språkliga förmåga genom att analysera stora mängder offentligt tillgänglig text och hitta samband mellan ord eller meningar. Utifrån dessa skapar modellen sedan egna meningar.

Modellen gör matematik av språket

Språkmodeller som Googles LaMDA är baserade på statistiska beräkningar av samband mellan ord samt analyser av miljardtals samtal. Modellen är självlärande, vilket gör att den blir bättre i takt med att den gör nya erfarenheter.

Shutterstock

1. Modellen matas med ord

Grunden för utvecklingen av en språkmodell är förmågan att kombinera ord på ett rimligt vis. Modellen analyserar miljardtals texter och konversationer på nätet och registrerar på vilket sätt och hur ofta orden förekommer tillsammans.

Shutterstock

2. Ord med starka samband blir matematik

Utifrån statistiken kan modellen beräkna sannolikheten för att det ska framstå som rimligt att kombinera vissa ord i meningar. Det kan till exempel vara ord som hör ihop, till exempel ”fågel”, ”flyga”, ”ägg”, ”näbb” och ”rede”.

Shutterstock

3. Ändlösa samtal förbättrar modellen

När modellen samtalar med en person använder den sig av erfarenheter från miljardtals andra konversationer. Samtidigt lär den sig nya saker när den för sina egna samtal, även dem den just är inbegripen i.

Shutterstock

Språkmodellen förstår inte vad en mening som ”en fågel i handen är bättre än tio i skogen” betyder. Den vet varken vad en fågel, en hand eller en skog är.

Den lär sig dock snabbt att ”en fågel i handen” i många fall följs av ”är bättre än tio i skogen”, och på en mer övergripande nivå lär den sig vilka kombinationer av ord och meningar som brukar dyka upp tillsammans med ordet ”fågel”.

Beräkningsföreskrifter i modellen tilldelar värden till samband mellan ord i meningar, så att kopplingarna mellan ord som ”fågel”, ”ägg”, ”fri”, ”näbb”, ”fjäder” och ”flyga” stärks, eftersom de ofta förekommer tillsammans.

Utifrån en matematisk beräkning av extremt många samband – 137 miljarder för LaMDA, 175 miljarder för GPT-3 och 1,75 biljoner för Wu Dao 2.0 – kan stora språkmodeller ge meningsfulla svar under ett samtal. Och de lär sig så snabbt att nya data som de får under det aktuella samtalet direkt kan användas.

Modellerna är alltså fullt kapabla att föra ett vettigt samtal, men det går att få ut dem på hal is. Det krävs bara att de ställs inför tillräckligt svåra frågor.

Robot
© Shutterstock

Test gillrar fällor för maskinen

Modellerna är i allmänhet inte bra på att prata om koncept som de aldrig har stött på i de texter som de har tränats upp med. Eftersom de stora amerikanska språkmodellerna vanligen tränas upp med engelska texter blir det svårt när de får frågor som förutsätter kunskaper om andra språk.

Maskinen saknar humor

En alldeles särskild utmaning för modellerna är humor, framför allt svart humor. Det är inte så konstigt. Ett skämt spelar ofta på den mänskliga hjärnans fantasi och förmåga att kombinera information på nya, överraskande sätt.

Tänk till exempel på frågan: ”Vad är rött och dåligt för tänderna?” och de tre svarsalternativen ”en röd tandborste”, ”ett äpple” och ”en tegelsten”. Det sista svarsalternativet är definitivt roligast, men det är svårt för datormodellen att förstå.

Förvånansvärt nog kan språkmodellerna också ha svårt att lösa uppgifter som kräver logiskt tänkande. Det gäller till exempel relativt enkla schackproblem.

Visst, det finns datorer som är extremt bra på schack, men de är optimerade för just det och kan inget annat. De mer generella språkmodellerna har svårt att hitta det bästa schackdraget.

204 uppgifter i ett nytt test ska avslöja om vi talar med en människa eller en robot.

Testet BIG-bench utgörs av 204 mycket olikartade uppgifter, som ställer datorn inför stora utmaningar.

Testet är utformat så att det på ett automatiserat vis kan fråga ut språkmodeller och komma fram till hur skickliga de är i jämförelse med människor som tidigare har besvarat samma frågor.

Med testet kan forskarna undersöka hur stor roll mängden data och processorkraft spelar för att lösa de olika typerna av uppgifter – och sedan kan de följa hur språkmodellerna utvecklas över tid.

Ett är säkert: De kommer att bli allt bättre på att efterlikna oss människor. Vi närmar oss en tid då alltfler av våra samtalspartner kommer att vara virtuella.

Frågan bara om vi då hellre kommer att vilja prata med maskiner än med människor av kött och blod.