Chatbotar och virtuella assistenter som Amazons Alexa och Googles Home blir allt bättre, men umgänget med dem kan bli frustrerande - de är mer än lovligt enkelspåriga och fattar överhuvudtaget inte språkliga och kulturella finesser som ironi, sarkasmer och skämt.

Forskare på Oregon State University i USA har börjat gå till botten med problemet, enligt en artikel på The Register. Men det är knepigt. Maskinerna måste lära sig att förstå vad som sägs, av vem, kontexten för samtalet och diverse fakta för att kunna tolka kulturella referenser. Att mata inlärningsalgoritmen med enstaka meningar räcker inte.

Läs också: AI tog fram receptet på den perfekta pizzan – med något oväntat resultat

Istället har forskarna byggt en algoritm som inspekterar den inmatade meningen, plus meningen innan och efter. Modellen är uppbyggd av flera så kallade “bidirectional long-short term memory networks” (BiLSTM) som verkar tillsammans, och modellen lyckades peka ut sarkastiska kommentarer i 70 procent av fallen, vilket får ses som en framgång, men har fortfarande en bit kvar till de riktigt höga sannolikheter som krävs för att det ska fungera bra.

– Vanliga LSTM:er läser in en mening från vänster till höger, men BiLSTM läser in från bägge hållen, säger Reza Ghaeni, doktorand vid Oregon State University och medförfattare till rapporten. Det ger algoritmen information om hela meningen, om vad som kommer före och vad som kommer senare.

Men, frågar sig vän av ordning, vilka dataset ska man använda för att lära algoritmen sarkasmer? Reddit, givetvis! Datasetet, kallat SARC (sic!), innehåller flera hundra tusen sarkastiska och icke-sarkastiska kommentarer och svar. En av fördelarna med datasetet är att det innehåller texten innan kommentaren och information om författaren, så algoritmen kan lära sig om kommentaren är sarkastisk genom konversationens kontext, eller den kontext författaren rört sig i tidigare.

Läs också: Det här är AI och så funkar det

Forskarna vill dock förtydliga att modellen inte förstår mer intrikata sarkasmer då den endast processar som mest två hundra ord i en enskild kommentar och ett hundra ord i följande svar. Modellen har designats för att “förstå” enkla interaktioner på nätet, och kommer inte förbättra Amazon Alexa eller Google Home i första taget.