Om maskininlärning ska bli ett verktyg för alla så återstår det väldigt mycket jobb. I dag måste man ha specialkompetens för att lyckas med analyser och förutsägelser med hjälp av maskininlärning.

Som det ser ut i dag finns det lösningar som gör det enkelt att utnyttja vissa tekniker inom maskininlärning. Det främsta exemplet är kanske funktionen Insights i Microsofts kalkylprogram Excel. Användaren får hjälp med själva analysarbetet, vilket gör sådan här teknik tillgänglig för fler. Men man får ingen hjälp med den tyngsta delen av processen, nämligen datahanteringen.

Läs också: Nu får advokaterna se upp! AI-juristen Lawgeex krossar allt mänskligt motstånd

I normalfallet handlar maskininlärning om att använda historiska data inom ett område som bas för att träna fram en modell för förutsägelser. Man brukar säga att 80 procent av jobbet i ett sådant projekt går åt till att hitta, importera, tvätta och organisera data. Det är alltså den överväldigande delen av allt arbete.

Om man läser på Microsofts supportforum om Insights får man veta följande, översatt till svenska:

  • Insights fungerar bäst med rena, välorganiserade data som inte är nästlade och inte innehåller tomma rader eller kolumner.
  • Datum i strängformat, som ”2017-01-01” analyseras som om de är text. En lösning är att skapa en ny kolumn och använda någon av funktionerna DATE eller DATEVALUE och formatera dem som datum.
  • Insights Services stödjer för närvarande inte analyser på datamängder över 16 MB (ungefär 250 000 celler).
  • Och så vidare.

Kontentan är att den stora, ofta krångliga, definitivt jobbiga, delen av ett normalt projekt för maskininlärning återstår, även om man använder den annars lättanvända analysfunktionen i Excel. Och då har vi inte ens nämnt omaket med att överhuvudtaget hitta data till att börja med.

Det här är ingen kritik mot Microsoft, Excel eller Insights. Det är bara en beskrivning av nuläget.

Det som behövs är tillgång till användbara exempeldata inom olika områden, förslagsvis via en molntjänst. Drömmen är att kunna skriva en formel i Excel för att förutsäga ett visst värde för en enstaka datarad. Då skulle maskininlärning bli direkt användbar för de allra flesta.

Läs också: Svårt för it-köpare att hitta rätt när allt kallas för AI

Det skulle kräva att Excel med hjälp av en molntjänst skulle kunna identifiera vilka typer av data det handlar om, i vilket sammanhang. Alternativt att användaren får ange det på något enkelt sätt. Datatjänsten skulle också, på något sätt, behöva välja ut exempeldata som är relevanta för användarens företag, vilket skulle kräva ytterligare inmatning från användaren.

Ett problem är att det blir svårt att erbjuda tillgång till sådana exempeldata inom många områden. Man får nog nöja sig med de vanligaste, åtminstone till en början.

Kan det här fungera? Det är klart det kan, men inte i dag. Det krävs mycket jobb innan vi är där och en hel del… maskinintelligens.

Men för att göra analyser med maskininlärning enkelt tillgängliga, på stående fot, för var och en, behövs det lösningar av den här typen. De allra flesta har varken tid eller kompetens för att göra i ordning data.