Om man inte får tag på data blir det svårt att lära sig maskininlärning, men nu kommer Google till undsättning. Sökjätten släpper flera intressanta, och stora, datamängder för den som vill komma i gång med maskininlärning. Här är tre av dem.

Järnkoll på bilder...
The Open Images Dataset är en samling med nio miljoner länkar till bilder som kategoriserats med över 6 000 kategorier. Alla bilderna är släppta med licensen Creative Common Attribution, vilket innebär att de kan användas tämligen fritt.

...och på video också
YouTube-8M Dataset innehåller som namnet anger information om åtta miljoner videoklipp på Youtube. Varje klipp har visats minst 1 000 gånger, är minst två minuter långt och är klassificerat. Om du har svårt att komma på fritidssysselsättningar ska du veta att klippen i den här samlingen bjuder på en halv miljon timmars tittande.

När dök ordet upp?
Google Books Ngrams innehåller information om när ord började användas på bred front. Som ett exempel på insikter man kan få nämner IDG News att begreppet ”heavy metal” har funnits sedan artonhundratalet, men att det började användas på bred front med sin nuvarande mening 1975. Det låter sent med tanke på att Black Sabbaths första album släptes i februari 1970. Fredagen den trettonde, för övrigt.

Om du vill ladda ner informationen i Google Books Ngrams kan det vara bra att veta att det handlar om 2,2 TB.