Tränad i miljardtals spel
För att placera sig bland världseliten av Strategospelare har DeepNash spelat 5,5 miljarder omgångar mot sig själv, så att den artificiella intelligensen varje gång lär sig något nytt om spelet, strategin och vägen till seger.
Den artificiella intelligensen har ett inbyggt belöningssystem som styr maskinen att hela tiden optimera sitt spel, medan mänskliga tekniker kontinuerligt justerar och förfinar dess spelalgoritmer.
Samtidigt styrs Stratego-AI:n av det spelteoretiska begreppet Nashjämvikt, som kortfattat går ut på att ingen spelare ändra strategi om det inte omedelbart är till deras fördel.
Detta faktum utmanar DeepNash med djärva drag som överraskar motståndaren.
I en match offrade maskinen exempelvis flera av sina högtstående Stratego-officerare för att locka motståndarens starkaste brickor i spel, varpå maskinen kunde slå till i ett bakhållsangrepp och gå segrande ur matchen.
Så i stället för att hela tiden optimera sina enskilda drag kan den artificiella intelligensen i ett spel med flera okända faktorer under längre tid lura motståndaren att öppna sig, varpå maskinen slår till med dödande drag.
Kan användas i självkörande bilar
Förutom att hela tiden vinna över erfarna Strategospelare kan DeepNashs förmågor också användas utanför spelbrädan.
En blixtsnabb avlösning av den egna och andras körstrategier kan exempelvis bli användbar i självkörande bilar, som måste fatta viktiga beslut här och nu i stressande trafik.
"Om man tillverkar en självkörande bil kan man inte utgå ifrån att alla andra bilister på vägen är rationella och uppför sig normalt", förklarar Dr. Noam Brown från konkurrenten Meta AI, som har följt forskningen från sidlinjen, till mediet Singularity Hub.