Mänskligheten producerar i dag obegripliga mängder data. Vi dubblar mängden nästan varje år. För 25 år sedan, ungefär när Commodore släppte sin nya Amiga och Steve Jobs drevs ut från Apple, skapade vi 2,6 exabyte totalt. Förra året passerade vi för första gången en zettabyte. Talet har 21 nollor, om du vill skriva ut det.





Inte bara hos jättarna
Vi har länge sett larmrapporter om dataöversvämningar ute bland företagen. Allt fler bolag har ökat sin interna datavolym mångfalt under de senaste åren. Att ha centrala beslutsstöd på många terabyte är ingen ovanlighet.

Svårigheterna med att bearbeta de stora volymerna gör att många företag drar sig för att utnyttja den information man ändå har. Det kostar mycket pengar att bygga infrastruktur och anpassa mjukvara för att snabbt kunna tröska igenom tiotals terabyte data.
Men det där är ändå ganska lite, jämfört med vad de största får brottas med. Riktigt stora datavolymer brukar kallas för big data, massiv data. Begreppet har uppstått för att beteckna data som kräver speciella lösningar och ger speciella möjligheter.

Det är nämligen inte så enkelt som att big data är lika med stora mängder data. Gränsen för vad som räknas som big data är flytande – det som är mycket information i dag är det inte i morgon. Standardtekniken hinner ikapp. Men det finns en fyndig tumregel som tillskrivs datalagrets fader, Bill Inmon. Big data är datamängder som är väldigt mycket större än det du själv jobbar med.


Inte bara storlek avgör
På analysföretaget Gartner pekar man på att det finns fler dimensioner för big data än bara storleken. En sådan är variation. I dag har inte de interna transaktionssystemen monopol på att leverera information, utan mängder med data kommer från externa lösningar. Det kan vara e-postsystemet, bildbanker eller olika sociala medier som agerar källor.

En annan, minst lika viktig faktor, är hastigheten. I dag är det inte bara så att data produceras i en tidigare sällan skådad takt. Användarna har också vant sig vid att få sekundsnabba svar. Varför ska de behöva vänta på företagets datalager när Google kan presentera 1 000 000 träffar på ett ögonblick?

Just Google är dessutom ett av de företag som ligger i den yttersta framkanten inom området databearbetning. De, likt många webbföretag, löser problem som de vanliga tillverkarna ännu inte tagit tag i. Vill du se hur stora datavolymer hanteras är det alltså hos webbjättarna du ska titta.


Olika, men liknande
Om du studerar de olika webbplatsernas arkitektur ser du att de ser något olika ut. De allra flesta har dessutom drivor av skiljda tekniska lösningar även internt. Tittar man lite närmare går det dock att se vissa tydliga mönster.

De allra flesta har offrat de vanliga, traditionella databasmotorerna. För enkla operationer är en enkel nyckel- och värdelista mycket snabbare än något som Oracle, IBM eller Microsoft kan erbjuda. Det innebär att man offrar transaktioner på hastighetens altare. Men det är i regel inga problem på webben.

En annan lösning är minnesbaserade lagringsytor. Genom att läsa upp data i snabba kapslar skyndar man på åtkomsten tusenfalt. Även här riskerar man att förlora data om något skulle gå snett, men många tycker det är ett pris man kan betala för ökningen i hastighet.

Nära nog alla lösningar skalar dessutom ut horisontellt. Man försöker inte köra allting på en gigantisk smp-maskin, utan i stället sprids lasten till tusentals servrar. Det ger inte bara prestanda, utan också driftsäkerhet, eftersom det alltid finna mängder av maskiner som är redo att ta över vid ett haveri.


Stor verktygslåda
Det finns mängder av olika verktyg för det här. Vissa är väldigt vanliga och förekommer i nästan varje arkitektur, till exempel Memcached och Hadoop. Andra syns betydligt mindre frekvent, men gör ändå stor nytta för den aktuella webbplatsen, till exempel MongoDB och node.js.

Google bearbetar hundratals terabyte information – om dagen. Det är därför inte underligt att mycket av den teknik som finns inom området kommer från just dem. Många fria applikationer har inspirerats av dokument från sökjätten. För själva har de nämligen inte släppt sina program fria.

Grundbultarna i deras lösning är tre till antalet. Längst ner finns det distribuerade filsystemet Google File System, GFS. Det sprider man ut över stora mängder billiga datorer. Den administrativa bördan har man löst genom att göra filsystemet självskötande. Lösningen är både billig och säker.

All data hamnar alltså på GFS, men det är databasmotorn Bigtable som organiserar den. Även den är tillverkad inom företagets fyra väggar. I stället för att bygga vanliga tabeller och knyta ihop dem med relationer, använder man vad som kan beskrivas som massiva listor som innehåller nycklar och värden i sorterad form. Den enkla uppbyggnaden gör lösningen blixtsnabb och lätt att sprida över stora kluster.