Filip Wästberg som till vardags är dataanalytiker på Demoskop är också en stor fan av gruppen Kent. Varför inte kombinera de två egenskaperna, verkar han ha tänkt.

Sagt och gjort. Som ett fritidsprojekt gjorde han en analys av Kents låtar och lyckades utse den allra deppigaste låten. Han gjorde analysen med hjälp av data från Spotify och analys av Kents texter. Det tog en dryg arbetsdag, plus ”lite extra tid”.

Vilken låt är deppigast? Lugn, det kommer.

Hur gjorde han?

– För att ladda ner texterna hämtade jag webbadresser till alla Kents texter via webbsidan Genius, sedan skrapade jag själv texten från sidorna, förklarar Filip Wästberg.

Läs också: Krokodiler, flytande katter och äcklig ost – här är årets alternativa nobelpris

Nästa steg blir att hämta en förteckning över svenska ord från Språkbanken. I det här läget finns det två datakällor för att beräkna låtars ”deppighet”:

  • Ett värde som kallas valence från Spotify, ungefär ”gladhet” och alltså därigenom omvänt deppighet.
  • Ett värde för varje ords negativa klang, från Språkbanken, som är en webbplats som drivs av Göteborgs universitet. För att vara detaljerad består det ”värdet” av tre olika: ett enkelt värde som anger om det är ett positivt eller negativt ord, styrka för tolkningen och säkerhet för tolkningen. Filip Wästman multiplicerar värdena för styrka och säkerhet, för negativa ord, med varandra.

Sedan adderar han Spotifys värde för deppighet med andelen negativa ord i en låttext, vägt med hänsyn till styrka och säkerhet. Sista steget är att omvandla resultatet till ett indexvärde. Voila, deppigheten är bestämd.

– Det är ingen särskilt avancerad analys. Jag provade med en mer avancerad modell, men jag tyckte att resultatet av den analysen blev mindre träffsäkert, förklarar Filip Wästberg.

Kent
Foto: Plyen001 (CC)

Kan man kalla en sådan här analys för sentimentanalys?

– Absolut, men det är en väldigt enkel sentimentanalys. Ibland tror jag att de enklare analyserna kan bli mer värdefulla eftersom att de oftast är enklare att tolka.

Läs också: Det finns ett it-företag för varje grungeband

Allt jobb gjordes med språket R som inte bara är lämpligt för den här typen av uppgifter rent tekniskt. Filip Wästberg framhäver den stora mängden öppna lösningar som finns tillgängliga att använda. I Kentprojektet har han till exempel använt ett R-paket skapat av Måns Magnusson, doktorand i statistik vid Linköpings universitet, för att få tillgång till data från Språkbanken. Han berättar också att projektet är inspirerat av Charlie Thompson som gjort motsvarande analys av Radioheads texter.

Han tycker att Kentprojektet åskådliggör en ”data scientists” arbete på ett bra sätt:

– Det jobbiga är inte att skapa avancerade statistiska modeller, utan att få tillgång till och strukturera data så att det är möjlig att analysera dem över huvud taget. Det överensstämmer med min egen bild av jobbet som dataanalytiker.

Vilken låt är deppigast?
– Stoppa mig juni (Lilla Ego). Men den låt jag trodde skulle vara deppigast, Ett tidsfördriv att dö för, fanns tyvärr inte med i dataunderlaget från Spotify.

Vilken låt är gladast?
– FF.

Filip Wästberg berättar vidare att den feedback han har fått från Kentfans är att ”ingen håller med” om listan i detalj, men att nog de flesta håller med ”i stort”. Han tycker att listan återspeglar hans egna tolkningar av Kents texter.

I kväll, torsdag, ska han berätta om projektet och analysmodellen på ett meetup som ordnas av Stockholm Data Science. I det här blogginlägget beskrivs lösningen i detalj.