Tredje kvartalet 2006 levererades lagringsenheter som totalt rymde 783 petabyte till företag och konsumenter runt om i världen. Det var en ökning med 50,2 procent från motsvarande kvartal förra året. De senaste åren har marknaden för datalagring växt med tvåsiffriga tal varje kvartal.

Datalagringsmarknaden var i fjol värd över 200 miljarder kronor och det finns inga tecken på den ska sluta att växa. Det är naturligtvis bra för lagringsleverantörerna, men för it-ansvariga som ser lagringslösningar utgöra en allt större del av it-budgeten, och som kontinuerligt måste installera nya diskar, är det kanske inte lika roligt.


Minskar mängden data radikalt

En av de mest intressanta teknikerna för att minska behovet av lagring är datadeduplicering. Bakom det tungvrickande namnet döljer sig en teknik som ska kunna minska mängden data som behöver lagras vid säkerhetskopiering med 20 gånger eller mer.



Det låter nästan för bra för att vara sant och en sådan stor besparing av lagringsutrymmet är heller inte möjlig alla gånger. Faktum är dock att datadeduplicering fungerar och kan vara till stor hjälp för företag som vill lagra mindre på sina disksystem utan att samtidigt förlora data.

Deduplicering är en form av komprimering som fungerar lite annorlunda än den traditionella varianten. Vid vanlig komprimering söks de data som ska lagras igenom på jakt efter mönster som repeteras. Ett enkelt exempel är när en fil innehåller strängen 1234 tio gånger. Den kan då representeras med 10 1234, vilket visar att den finns med tio gånger.

Med komprimering kan det gå att komma ned till runt halva originalstorleken av ett objekt, som en fil eller ett paket som ska skickas över nätet. Det är naturligtvis bra, men datadeduplicering tar det hela till en ny nivå.


Hittar likheter i filer

Datadedupliceringen bryter ned objektet i småbitar, precis som vid komprimering, och ser efter om det finns mönster som repeteras och därför kan komprimeras. I stället för att titta på hela filen kan deduplicering analysera datablocken i den och se om de dupliceras på olika ställen. Datadeduplicering letar heller inte bara efter mönster i filer utan även mellan filer.

Med deduplicering går det inte bara att plocka bort de filer som är dubbletter, utan även att endast spara de komponenter som verkligen är unika.



Ett dedupliceringssystem analyserar först objektet som kan vara datablock i en fil för att se hur många unika komponenter som används. Enbart ett exemplar av varje komponent sparas tillsammans med en beskrivning över hur många komponenter som behövs och hur de passar ihop. Detta minimerar den mängd information som behövs för att objektet ska kunna återskapas.




Om ett nytt objekt ska lagras kontrollerar dedupliceringen om det använder komponenter som inte använts tidigare. Om så är fallet så lagras ett exemplar av de nya komponenterna också tillsammans med en ny beskrivning om vad som behövs för det nya objektet och hur de ingående komponenterna passar ihop.


Vi kan göra en liknelse med hur man snickrar ihop en låda. Säg att vi behöver fyra brädstumpar, två plywoodbitar och ett par gångjärn. Med datadeduplicering bryter vi ned det till att det krävs brädstump, plywoodbit och gångjärn och så lagrar vi en ritning som visar hur många det behövs och hur de ska monteras.

Får vi nu för oss att bygga ett enkelt dockhus av en låda behöver vi några nya komponenter, som en dörr, tre fönster och några mellanväggar. I stället för att skapa ett helt nytt lagringsobjekt med all information om hur dockhuset ska byggas kan datadedupliceringssystemet upptäcka att det till stora delar är beskrivningen av en låda som används även för dockhuset.

Det som verkligen behöver lagras är bara de nya komponenterna (dörr, fönster, mellanvägg) och ritningen som visar hur det hela ska monteras. Med traditionell komprimering skulle vi komprimera materialet (brädor, plywood med mera) och spara en kopia av den informationen för varje låda som vi byggt. Med datadeduplicering sparas bara informationen en gång, oavsett hur många lådor vi bygger.


Sparar bara ändrade block


I datavärlden kan till exempel ha ett mejl med en Wordbilaga som skickas ut till alla anställda. Mejlet sparas bara en gång. Om någon av mottagarna gör en ändring i Worddokumentet och skickar det vidare till andra behöver inte hela dokumentet lagras en gång till. Det räcker att de datablock som har ändrats sparas med en referens till att det är en ändring i dokumentet som redan lagrats.

Nyckeln till datadeduplicering är algoritmerna, som räknar ut vad som behöver lagras. Här har leverantörerna vanligen egna algoritmer som de bevakar svartsjukt. En metod som går att använda är en hash-lösning baserad på exempelvis md 5-algoritmen.

I korthet fungerar en hashalgoritm så att den omvandlar innehållet i ett objekt, som en fil eller ett datablock i en fil, till ett numeriskt värde. Om innehållet i objekten är olika skiljer sig deras värde åt. Om värdet är detsamma är det mycket sannolikt, men inte absolut helt säkert, att innehållet är detsamma.

I och med att hashalgoritmen inte med hundraprocentig säkerhet kan garantera att två objekt är likadana finns det en liten, liten risk med att använda den. Dessutom är algoritmerna inte helt effektiva alla gånger, vilket gör att behandlingen av dem kan gå långsamt och kräva mycket kraft av hårdvaran. Därför använder en del leverantörer egna algoritmer med exempelvis mönsterigenkänning för att få effektivare deduplicering.


Besparing beror på teknik och filtyp

Att det går att spara utrymme på diskarna med deduplicering råder det ingen tvekan om. Exakt hur stor besparing det kan röra sig om är svårare att svara på. Till viss del beror det på den teknik leverantören använder.

De som inte använder ren hashteknik menar att deras metoder är mer effektiva, men konkurrenterna som använder hashalgoritmer håller förstås inte med om det. Det finns inga omfattande jämförande tester som visar hur det ligger till.

Vilken typ av data det är som ska lagras spelar troligen större roll för prestanda än vilken algoritm som används. Allra bäst fungerar deduplicering på ”vanliga” data som e-post, Powerpointfiler, Officedokument och liknande. Om informationen redan har komprimerats blir effekten mycket mindre och är den krypterad fungerar inte deduplicering alls. Om filerna ska krypteras är det bäst att göra det efter dedupliceringen.


Vinster för de flesta

För de flesta företag lär det med deduplicering inte vara några problem att skära ned mängden data som ska lagras till en tiondel. En tjugondel är alls ingen omöjlighet i rätt miljö med mycket ostrukturerade data.

Minskade kostnader för lagringsenheter är den mest påtagliga fördelen med deduplicering och det märks speciellt för säkerhetskopiering. Om en backup på 20 terabyte data med deduplicering bara kräver en terabytes utrymme kan det plötsligt finnas så mycket plats över att man inte behöver använda band längre utan kan lägga allt på hårddisk.

Med en virtual tape library-lösning, vlt, går det att lagra äldre eller mindre viktig information på billiga disksystem precis som man skulle göra med en bandlösning. Bandsystemen kan då avskaffas, vilket sparar pengar både för uppgraderingar av systemen och för administration av ett extra system.

Deduplicering kan också vara en effektiv lösning för den som vill ha en central backup för lokalkontor som finns spridda runt om i landet. Om informationen dedupliceras innan den skickas iväg går överföringen mycket snabbare, vilket minskar trycket på företagets wan-länkar.

Disaster recovery är ett besläktat område som kan dra nytta av deduplicering. Här handlar det också om att föra över data från en geografisk plats till en annan. Det rör sig ofta om stora datamängder och deduplicering kan effektivisera hanteringen betydligt.

En annan fördel med deduplicering är att själva säkerhetskopieringen går snabbbare. Med riktigt stora datamängder kan det vara svårt att hinna göra en komplett backup på en natt. Om man kan få ned det till att bara göra kopior av nya filer och de block som har ändrats i existerande filer går det att klara av det som tidigare tog en hel natt på någon timme.



Ett dedupliceringssystem kan sitta mellan backupservrarna och disksystemen och plocka bort all dubblerad information. Även lokalkontor kan ha en dedupliceringsserver vilket minskar mängden information som ska överföras.



I och med att det går att centralisera all backup och lagra allt på färre diskar blir det också mindre jobb för administratörerna. De behöver bland annat inte ta itu med problem som beror på att en lokal backup på ett kontor har misslyckats, utan kan sköta allt centralt. Det gör förstås administrationen av lagringssystemen enklare och billigare.


Dyrt och inte så snabbt

Även om deduplicering har klara fördelar är det inte den optimala lösningen för alla företag. Produkterna för deduplicering är inte billiga. Priserna varierar beroende på leverantör, men 100 000 till 200 000 kronor lär ni få räkna med.

Företag med datamängder på bara runt en terabyte kommer knappast att anse att en dedupliceringslösning är värt pengarna. Det är billigare att bara köpa fler diskar när det behövs och ta dupliceringen av filer med ro.
Deduplicering lönar sig inte heller för företag som har mindre lokalkontor, som kanske bara lagrar några hundra gigabyte lokalt.

Företag som har mycket stora datamängder kan stöta på ett annat problem. Prestanda hos dedupliceringssystemen är inte alltid så lysande. Överföringshastigheter på 100 till 200 megabit per sekund är inte ovanligt: Även om man minskar mängden data som ska lagras med 95 procent kan det vara alltför långsamt för att det ska vara rimligt att ta kopior på 20 till 30 terabyte.

Leverantörerna är medvetna om problemet och jobbar intensivt med att förbättra prestanda. Snabbare produkter lär garanterat dyka upp under året.


Många hemliga lösningar

Ett annat problem är att leverantörerna har olika lösningar. Även om deduplicering har funnits i några år finns det ingen standardisering, alla leverantörer använder sina egna, små hemliga algoritmer.

En lösning från en leverantör är därför knappast kompatibel med en annan leverantörs produkter. Risken är att företaget låser sig till en leverantör, vilket kan vara riskabelt på en så pass ny marknad.

Leverantörerna av dedupliceringssystem blir allt fler. I början av förra året hette dedupliceringsföretagen Data Domain, Diligent, Avamar och Adic, knappast några namn som it-ansvariga i Sverige omedelbart känner igen.

Att leverantörerna var oprövade och hade egna lösningar gjorde också att många företag drog sig för att satsa på deduplicering. Under fjolåret började dock även en del stora leverantörer intressera sig för deduplicering. EMC köpte till exempel Avamar medan Quantum köpte Adic, som i sin tur hade köpt dedupliceringsleverantören Rocksoft.

Även Symantec satsar på deduplicering. Företaget har bland annat skapat ett api (application programming interface) som gör det möjligt för dedupliceringsleverantörer att koppla sina system till Symantecs backupprogram Netbackup. Även stora leverantörer som Netapp satsar på deduplicering, samtidigt som en del av de fristående leverantörerna också finns kvar.

Microsoft har stöd för deduplicering i en del av sina produkter.
Frågan är om företagen kommer att behöva köpa dedupliceringslösningar separat i fortsättningen. Trenden verkar vara att lagringsleverantörerna bygger in deduplicering i sina system. Om något år kan det mycket väl vara så att deduplicering är något som alla förutsätter finns med i en avancerad datalagringslösning.

Är du inte i desperat behov av att minska mängden data som ska lagras kan det vara värt att ha lite is i magen och se om det kommer några intressanta erbjudanden från leverantörerna redan i år. Förhoppningsvis får vi då också se betydligt mer prisvärda och snabba dedupliceringslösningar.