
Hadoop är uppkallat efter projektgrundarens sons leksaks-elefant.
Big data är ett färskt modebegrepp i it-branschen som du garanterat kommer få höra mer och mer av. Det syftar inte bara på själva datamängderna, utan även de metoder man behöver ta till för att kunna hantera dem. För det är många tumregler och designprinciper som måste kastas överbord när man når gränsen för vad till exempel en ensam server klarar av. Ska man sammanfatta lösningarna på typiska Big data-problem med ett enda ord så blir det ”parallellisering”. Det knepiga är bara att lyckas samordna alltsammans.
Hadoop är ett ramverk, alltså en mjukvaruplattform som man utvecklar applikationer på, som är helt inriktad på att underlätta hanteringen av väldigt stora datamängder. Den som utvecklar en Hadoop-baserad applikation behöver inte bry sig särskilt mycket om grundläggande samordning av arbetet, det sköts av ramverket.
Haken är att du måste anpassa applikationen till Hadoop, det går alltså inte att köra vilket program som helst och tro att Hadoop fixar parallelliseringen.
Stora miljöer
Det räcker med att ta en titt på Hadoops ursprung för att inse vilka stora miljöer det kan hantera. Projektets grundare Doug Cutting skrev mycket av koden medan han arbetade på Yahoo. Inspirationen fick han från en Google-rapport som presenterar deras Mapreduce-metod, som de använder för att tugga igenom de oceaner av data som de samlar in.
Redan från starten var Hadoop öppen källkod, Doug Cutting byggde funktionerna som en förbättring av sin sökmotorprojekt Nutch.
2006 sjösattes Hadoop som ett eget projekt under Apache-stiftelsen, namnet tog Cutting från sonens leksakselefant. Sedan dess har bland andra Facebook, Linkedin och IBM bidragit.
Oftast installeras Hadoop på Linuxbaserade operativsystem, men det kan även köras på Windows.
Ramverket Mapreduce är en av de två viktigaste byggstenarna i Hadoop, och själva kärnan i hur man utvecklar program för plattformen. I det första steget av bearbetningen fördelas alla indata ut till de olika beräkningsnoderna, detta görs av en av noderna som är installerad som master. Var och en av beräkningsnoderna, som i Hadoop kallas för workers, kör sedan kartläggningsrutinen (mappningen) på sin del av datamängden.








































