Maskininlärning är så inne just nu att det är lätt att tro att tekniken kan användas för att lösa alla problem, skriver CIO.com och fortsätter med att beskriva myter inom området.

Man konstaterar också att maskininlärning passar speciellt bra för att lösa problem som man alltid haft, men aldrig har kunnat anställa tillräckligt med folk för att lösa. Även problem för vilka det finns tydliga önskemål för en lösning, men ingen uppenbar metod att använda, lämpar sig för maskininlärning.

Om du har koll på de här sju myterna ökar dina chanser att lyckas med maskininlärning.

Myt 1. AI är synonymt med maskininlärning

Begreppen AI och maskininlärning används ofta som synonymer. Visst är maskininlärning en teknik inom AI, men AI är ett mycket brett fält som även täcker in till exempel bildigenkänning, robotar och tolkning av naturligt språk. Även andra analysmetoder finns under AI-paraplyet, till exempel ”Constanta satisfaction” (lite som målsökning i Excel).

En bred definition är att allt som kan få en maskin att verka smart kan beskrivas som AI. Maskininlärning handlar om att använda matte med enorm hastighet och i enorm skala, ofta med stora datamängder inblandade.

Läs också: Nvidias superchipp har lite problem med matte

Myt 2. Alla data är värdefulla

Man behöver nästan alltid data för maskininlärning, men alla data är inte användbara för ändamålet. För att lyckas träna en lösning behövs det data som är representativa för problemområdet, som täcker samband och resultat som man vill innefatta i lösningen.

Man vill inte ha data som innehåller irrelevanta mönster, till exempel en massa bilder i vilka alla män står upp och alla kvinnor sitter ner. I så fall kommer modellen som skapas att återspegla de sakerna. I många fall bör data vara klart kategoriserade, förutom kanske i fall då maskininlärningen går ut på att just kategorisera data.

Med väl tvättade, tydliga, representativa och lättkategoriserade data ökar chansen att lyckas med maskininlärning.

Myt 3. Man behöver alltid mycket data

De stora framstegen på senare tid inom till exempel bildigenkänning och maskinöversättning kommer sig av bättre verktyg och kraftfullare hårdvara som kan hantera mera data parallellt. Men tack vare en teknik som kallas ”transfer learning” (överförd inlärning) behövs det inte alltid stora datamängder.

Överförd inlärning går ut på att först träna en modell med en stor datamängd och sedan överföra upptäckterna till andra modeller som jobbar med mindre datamängder. Och så finns det förstås tekniker för maskininlärning som inte är beroende av data att analysera, som förstärkt inlärning (reinforced learning).

Myt 4. Alla kan jobba med maskininlärning

Det finns gott om öppna verktyg och ramverk för maskininlärning, likaså kurser för att lära sig använda dem. Men det handlar fortfarande om specialiserad teknik. Man måste veta hur data ska förberedas och hur man ska välja rätt algoritm, samt ha förmågan att bygga en stabil lösning. Lägg till det att modeller behöver övervakas, så att man ser att de ger trovärdiga resultat över tid, till exempel beroende på ändrade förutsättningar för ett problem.

Kort sagt, det behövs kunskap och erfarenhet.

Myt 5. Alla mönster i data är viktiga

Folk med astma, bröstsmärtor och hjärtsjukdomar, samt de som hunnit bli 100 år, har en mycket större chans att överleva lunginflammation än vad du troligtvis tror. En enkel modell för maskininlärning skulle antagligen komma fram till att man bör skicka hem de här personerna från ett sjukhus. Men det resultatet beror på att personerna ofta läggs in väldigt tidigt, eftersom sjukdomen är så farlig för dem.

En modell hittar mönster i en datamängd, men i fall som det ovan är det inget värdefullt mönster. Och man vet inte att sådana mönster finns i en datamängd innan man har upptäckt dem.

Läs också: Lämna inte kundtjänst-botten oövervakad

Myt 6. Förstärkt inlärning är klar att använda

Förstärkt inlärning går ut på att en modell kommer fram till lösningar på problem genom att prova sig fram och bli belönad för bra lösningar på vägen. Det finns gott om exempel på sådana här lösningar inom forskningsvärlden, men inte i affärsvärlden. Tekniken behöver förfinas mer.

Myt 7. Maskininlärning är opartisk

Om maskininlärning baseras på data så kommer en modell att återspegla de antaganden som finns i datamängden som används. Ett tydligt exempel är att använda bilder på folk som är vd. En sådan modell kanske kommer fram till att vita medelålders och äldre män är bäst lämpade att vara vd.

Ett annat exempel är en bildsamling på människor, i vilken bilderna oftare visar kvinnor i köksmiljöer än män.

Det är mycket viktigt att förstå hur antaganden som återspeglas i datamängder kan påverka en modells resultat.