Allt om lagring 

– en artikelserie i tre delar

Del 1: Spara – så väljer du rätt typ av lagring 
Del 2: Söka – verktygen för att indexera och hitta
Del 3: Säkra - så säkrar du informationen


De hade redan prövat det gamla tricket, men det gamla tricket var just gammalt. Systemarkitekten var tvungen att söka en annan lösning. Något som skulle ge verksamheten de prestanda och den låga kostnad de krävde.

Utmaningen för det stora, teknikutvecklande bolaget, som vill vara anonymt, var att hitta en teknisk plattform som förkortade de så kallade byggtiderna. I stället för att behöva vänta över natten på att program skulle kompileras ville de kunna göra det över lunchen. Den främsta flaskhalsen fanns i lagringen.

– Det handlade med andra ord om rätt hårda krav, säger Per Sedihn, CTO på lagringsintegratören Proact, som var med och tog fram en lösning.


Nivåindelad lagring. Det stora teknikföretaget (som vill vara anonymt i artikeln) hittade sin lösning i filvirtualisering och nivåindelad lagring. Företaget nöjde sig inte med snabba fiber channel-diskar i lager 1, som är den vanligaste varianten, utan satsade också på ett lager 0 med solid state-diskar.




Virtualisering blev grunden

Så, vad gör man när prestanda i lagringen ska höjas samtidigt som kostnaden måste minska? Man tänker nytt. Lämnar de gamla banorna, lämnar den gamla lådan som omnämns i det bekanta uttrycket ”think outside the box”.

Det gjorde systemarkitekten på teknikföretaget och fann filvirtualisering för sina ostrukturerade data, alltså filer.

Virtualisering av filer var inte hela lösningen på problemet, men lade grunden till en stor del av den. I korthet handlar det om att alla program och system delar ett gemensamt filsystem. Det gör bland annat att diskarna i lagringsnätverket kan utnyttjas i högre grad och också att olika filer kan skrivas till olika typer av diskar. För programmen eller för den delen användarna märks inte detta.

För systemarkitekten på teknikföretaget var övergången till den nya lagringsarkitekturen om inte lätt så i varje fall lätt att få gehör för hos företagsledningen. Det var inte särskilt svårt att förklara för dem varför det var nödvändigt och sedan få pengar till att genomföra det.

Lagring på nivåer rätt för (nästan) alla företag"



Den enkla beskrivningen av nivåindelad lagring är rätt hårdvara för rätt information vid rätt tidpunkt. Information som är viktig och behöver vara tillgänglig snabbt lagras på dyra diskar i ett nätverk som ger höga prestanda. Information som inte har samma krav när det gäller tillgänglighet läggs på mindre dyr utrustning.

Det ger dock inte hela bilden. Hårdvaran skiljer visserligen i pris mellan de olika nivåerna, men det som för många ger den största skillnaden i kostnader är hanteringen av informationen. I lager 1, det som vanligen innehåller den för närvarande mest använda informationen, sker sådant som snapshots och replikering kanske några gånger per dag, medan det i lager 2 kanske bara sker någon gång i veckan.

– Det är lätt att göra misstaget att hantera informationen på liknande sätt i de olika nivåerna. Då missar man en stor del av kostnadsbesparingarna som är orsaken till varför konceptet används, säger Per Sedihn på Proact.

Det råder ingen tvekan om att nivåindelad lagring är rätt väg att gå för alla företag utom de minsta.

– För dem kostar det förmodligen mer än det smakar, säger Staffan Strand på HDS.

Det finns inget riktigt bra svar på hur ett företag ska utnyttja konceptet på bästa sätt. Framför allt har det att göra med utmaningen att få verksamheten att klassificera informationen så att så lite som möjligt av den lagras på den dyraste nivån och så att informationen gradvis kan flyttas nedåt i hierarkin av nivåer.

 Visserligen finns det klassificeringsverktyg, men de kan av naturliga skäl knappast bestämma hur viktig olika information är för respektive företag. Det är något som verksamheten måste göra.



Staffan Strand
, HDS.

Foto: Andreas Eklund




Finns inga tydliga krav

Per Sedihn berättar att scenariot ovan faktiskt är något av ett undantag. Ofta är det svårt för it-avdelningen att göra större förändringar i företagets lagringsmiljö, helt enkelt därför att det inte finns något klart motiv.


Per Sedihn"It kan inte anpassa systemen bara efter de förväntningar som trots allt finns från verksamhetens håll."


     Per Sedihn, CTO på Proact



– Om verksamheten inte ställer några krav på it när det gäller informationshanteringen kan inte it anpassa sina system efter de förväntningar som trots allt finns från verksamhetens håll, säger han.

För det finns förväntningar. När en it-ansvarig på ett större företag berättade för Per Sedihn att det tar sex dagar att återställa företagets mejl efter en eventuell krasch frågade han varför företaget hade en sådan lösning.

– ”Vi har inga krav på oss”, berättade den ansvarige för mig. Men han var samtidigt medveten om att det var it-avdelningen som skulle ställas till svars vid en eventuell krasch eftersom e-posten naturligtvis är livsviktig för företaget, säger Per Sedihn.

Krav från verksamheten är alltså en förutsättning för att den som arbetar med lagring av informationen ska ha någon möjlighet att ens bestämma vad som är ”rätt lagring” för företaget. Det duger dock inte att vänta på att någon från verksamheten ska knacka på dörren och leverera en kravlista. Det är upp till dig och dina medarbetare, som har koll på tekniken, att fråga efter krav.


”Det duger inte att vänta på att någon från verksamheten ska knacka på dörren och leverera en kravlista.”


– Det är ni som vet vilka möjligheter tekniken ger och också vilka begränsningar den har, säger Per Sedihn.

Dessvärre är det inte säkert att du får gehör för dina önskemål hos verksamheten. Även om det sker förbättringar när det gäller kommunikationen mellan verksamhet och it är det som bekant på många håll fortfarande ett svårt område.

Det innebär inte att it kan lägga sig ner och tuffa på i gamla spår. Något måste förmodligen göras. Informationsmängden ökar drastiskt och kraven på hur informationen ska lagras ökar, från företagen själva men också från externa aktörer som myndigheter och lagstiftare. Kostnaden är förstås en given faktor som alltid måste hållas under kontroll.

– Om inte verksamheten ställer några krav måste it använda det som faktiskt finns, för att skapa en så effektiv och bra lagringsmiljö som möjligt, säger Per Sedihn.


Ge användarna kvoter som kostar


Att ge användarna lagringskvoter är bra. Valdis Filks på Sun Microsystems menar att det till och med är nödvändigt.

– I fysiska skåp, som garderober eller dokumentskåp, måste vi hålla oss inom en viss kvot. Varför skulle inte det gälla inom datalagring? frågar han retoriskt.

Hans eget svar är att det är för lätt att lägga till en ny disk, eller åtminstone har det varit det fram tills nu. För många är det inte längre hållbart att öka antalet diskar och därmed elförbrukningen och behovet av kylning. Det bästa sättet att se till att avdelningar och användare inte överskrider sina kvoter är att ta betalt för det utrymme de använder.

– Det som är gratis har heller inget värde. När avdelningar ser hur mycket deras lagring kostar kommer de att ändra sitt beteende, säger Valdis Filks.

junk Kvoter fungerar dock inte alla lägen. Om du inte ser upp kan användningen av kvoter faktiskt få motsatt effekt. Per Sedihn på Proact berättar om fall där företagens anställda har ”löst problemet” med vad de tycker är för små kvoter för sina e-postlådor genom att lagra pst-filer på sina egna datorer eller på filservrarna.

På något företag tog sådana filer upp kopiöst med utrymme på diskarna, vilket innebar att kvotsystemet gav en dyrare lagring än om användarna hade lagrat samma mängd i sina inkorgar. Kvotbaserad lagring inte alltid är rätt sätt att få bukt med skenande informationsvolymer.




När skapades och ändrades filen?

”Det som faktiskt finns” är sådana enkla parametrar som när en fil har skapats, vilken typ av fil det är, när den senast ändrades och av vem. Utifrån de parametrarna går det att bygga lagring som inte placerar filerna på onödigt dyr utrustning. Det hjälper förstås bara den del av lagringen som utgörs av ostrukturerad information. För strukturerad information, som databaser och e-post, måste verksamheten engageras så att det går att skapa policies och regler kring hur olika typer av information ska hanteras.

Målet är att använda så kallad tiered storage, nivåindelad lagring. Det är knappast något nytt begrepp, påpekar Valdis Filks, enterprise systems manager på Sun Microsystems.

– Det har funnits i minst 20 år, men användningen har ofta följt ekonomiska upp- och nedgångar. Nu är det eko som i ekonomisk och ekologisk som lyfter detta, säger han.

Nivåindelad lagring innebär i korthet att olika viktig information lagras på olika dyr utrustning. Enligt Staffan Strand på Hitachi Data Systems (HDS) har majoriteten av mellanstora och större företag bara börjat resan mot en bra nivåindelad lösning. De flesta har ännu inte tagit det stora greppet kring problemet, utan uppehåller sig vid de tekniska delarna.

– För att kunna skapa en bra nivåindelad lagringslösning måste du först skapa processer, klassificera information och upprätta policies kring informationshanteringen. Det är det väldigt få som har börjat göra, säger Staffan Strand.

Den främsta utmaningen för att få ett sådant system att fungera är att veta vilken information som ska lagras var och hur den ska flyttas eller styras till rätt nivå.



Lämnar stubbar kvar

Systemarkitekten på det teknikutvecklande företaget i artikelns inledning hade provat det gamla sättet, som kallas HSM (hierarchical storage management) men blivit missnöjd. Per Sedihn på Proact säger att det berodde på hur HSM fungerar.

– Det ser visserligen till att flytta data till det lämpligaste lagret utifrån vissa parametrar, men lämnar kvar stubbar i det ursprungliga filsystemet. Det gör att det inte fungerar särskilt bra när det handlar om många småfiler i stora volymer. Prestanda blir lidande, liksom systemets stabilitet, säger han.

För det teknikutvecklande bolaget var som sagt prestanda en avgörande faktor och också något som styrde vilka lagringsnivåer de skaffade. I stället för att nöja sig med snabba fiber channel-diskar i lager 1 i den nivåindelade lagringsstrukturen, som är det vanliga, skapade de också ett lager 0 med flashminne, solid state-diskar. Per Sedihn är noga med att påpeka att det är ytterst ovanligt.

I stället för att använda ”gamla hederliga” HSM-program för att flytta filer till olika nivåer har teknikbolaget alltså valt att utnyttja filvirtualisering. Det innebär att alla program tror att de arbetar mot ett och samma filsystem.


”En av finesserna med filvirtualisering är att varje fil kan styras direkt till ’rätt’ lager.”



En av finesserna med det är att varje fil därmed kan styras direkt till ”rätt” lager. Det lämnas inte kvar några stubbar i filsystemen och användarna eller programmen ser över huvud taget inte var filen eller informationen lagras eller varifrån den hämtas.

Tekniken gav det teknikutvecklande företaget många nycklar till lösningarna för en kostnadseffektiv och högpresterande lagringslösning. En annan aspekt var också avgörande för det lyckade resultatet, nämligen verksamhetens engagemang att klassificera information så att den går att styra på lämpligt sätt i lagringsmiljön.

– Det är en av de stora övergripande utmaningarna för att få nivåindelad lagring med dynamik mellan lagringsnivåerna att fungera fullt ut. Tekniken är mogen och det finns utrustning från många olika leverantörer. Men ofta brister det i dialogen mellan it-organisationen och verksamheten, säger Staffan Strand på HDS.


Allt måste kopieras

Primärlagringen, som den nivåindelade lagringen handlar om, är förstås bara en del av den totala lagringsmiljön. Allt som lagras måste säkerhetskopieras på något sätt. Inom primärlagringen handlar det om att ta ögonblicksbilder, så kallade snapshots, med jämna mellanrum. Ögonblicksbilden lagras antingen på samma disk, eller om en högre säkerhet krävs, på en annan disk på en annan plats. Det senare kräver en funktion som kallas replikering.

Funktioner som snapshot och replikering är numer inbyggda i många diskar, men kan också ligga i virtualiseringslagret. Även en annan teknik, thin provisioning, som ger en mer rationell användning är inbyggd i allt fler diskar.

För det teknikutvecklande företaget var det självklart att använda dessa funktioner. Thin provisioning ger en avsevärt högre nyttjandegrad av diskarna och enklare hantering av miljön eftersom funktionen i någon mån löser problemet med att databaser måste ha exklusiv tillgång till en viss lagringsvolym.

– För att slippa konfigurera om ett system allt för ofta tar man till rejäla kapaciteter när man sätter upp en databas. Även om den bara utnyttjar 20 gigabyte tilldelar man kanske 100 gigabyte, eftersom man vet att den kommer att växa. Problemet är bara att man har låst 80 gigabyte fysisk disk för andra applikationer, förklarar Per Sedihn.

Med thin provisioning kan man så att säga lura databasen att tro att den har tillgång till 100 gigabyte, trots att det kanske bara är 20 gigabyte fysisk disk, som motsvarar det verkliga, aktuella behovet. När utrymmesbehovet verkligen ökar är det bara att byta till en större disk.

Funktionen för thin provisioning behöver inte sitta i själva disken, utan kan också vara en funktion i virtualiseringslagret, det som det teknikutvecklande företaget har använt för att skapa det globala filsystemet.


Ny teknik ändrar synen på lagring



Lagring undgår givetvis inte utveckling. Oftast rör det sig om förbättringar inom redan etablerade grundkoncept, men ibland sker det större saker. Ett av företagen som gör lagring till något helt annat än vad de stora leverantörerna är vana vid är Caringo. Företaget säljer en helt programbaserad lagringslösning. Givetvis utnyttjar den diskar och datorer, men den använder vanliga pc-datorer och kopplar ihop dem till ett stort lagringsnätverk över gigabit ethernet. secure


Resultatet är enligt lagringsintegratören Proact, som förvisso främst arbetar med leverantörer av traditionella system, en lagringsmiljö som är lättadministrerad och lätt att växa med. Genom att konceptet baseras på vanlig pc-arkitektur och utnyttjar de diskar som finns i servrarna görs stora besparingar.

Besparingen ligger inte bara i sänkta hårdvarukostnader utan påverkas även av funktioner för säkerhetskopiering, återställning med mera, som minimerar administrationen.

Konceptet är förhållandevis nytt, men enligt Proact är det ett intressant alternativ för företag som behöver arkivera information.

De stora arkivprojekten har hittills handlat om kulturbevarande inom offentlig sektor, men nu börjar det bli viktigt för många verksamheter.




Kan spara 95 procent

Vilket som är bäst är förmodligen en fråga om tycke och smak. Eller om pengar. Om funktionen ligger utanför diskarna hävdar somliga att de är friare att välja diskar från olika leverantörer, medan andra pekar på den mer omständliga och kostnadskrävande administrationen av ett sådant system och hellre väljer diskar med funktionen inbyggd.

Tekniker för att maximera diskarnas nyttjandegrad är också högintressanta. Därför har deduplicering blivit något av ett modeord i branschen, inte utan anledning. När tekniken används rätt kan den spara upp till 95 procent av diskytan, enligt Per Sedihn.

Genom att titta på varje fil som lagras i ett system för säkerhetskopiering, där deduplicering hör hemma, kan faktiskt det mesta av de data som ska lagras raderas. Givetvis raderas inte informationen men i stället för att lagra två likadana filer lagrar systemet en fil och en pekare till den filen. I stället för att lagra två likadana datasekvenser i två förvisso olika filer lagras en enda datasekvens och en pekare till denna.

Deduplicering är en mogen teknik, åtminstone för säkerhetskopiering. Det ger ett väsentligt minskat behov av diskyta, vilket också minskar kostnaden för hanteringen av diskar. Tyvärr går tekniken inte att använda för primärlagringen, åtminstone inte inom den närmaste tiden.



Så fungerar cas, content addressable storage



Många gör misstaget att se lager 2 i sin nivåindelade lagringsstruktur som ett arkiv. Det har kanske att göra med uppfattningen om vad ett arkiv är. Arkivering innebär inte ”billig långtidslagring”. Det innebär förvisso lagring under lång tid, men också särskilda krav kopplade till säkerhet och garantier om äkthet. En arkiveringslösning är alltså inte lager 2 i en nivåindelad lagringsstruktur, utan ett eget område.

En teknik som dyker upp i sammanhanget är cas, content addressable storage. När en fil placeras i ett arkiv som bygger på den tekniken omvandlas filen till ett objekt. Systemet har inget filsystem i traditionell mening. I stället får varje objekt en adress, eller en nyckel, som baseras på innehållet i objektet. Det enda sättet att komma åt objektet är att känna till adressen eller nyckeln. Nyckeln fungerar också som en krypteringsnyckel. Den är i sig nödvändig inte bara för att hitta informationen, utan för att över huvud taget återskapa den. Ingen fiffig administratör kan alltså gå in i något filsystem och komma åt filer som han eller hon inte har behörighet till.

Radering av objekt görs helt enkelt genom att ett objekts nyckel tas bort. Därmed blir innehållet i det ursprungliga objektet omöjligt att återskapa.

Ett cas-objekt kan också förses med nya metadata och också information om hur länge de ska sparas och på vilket sätt. Ett objekt kanske ska sparas i tre kopior, på tre olika fysiska platser, i två år. Sedan ska en kopia raderas och efter ytterligare ett år ska det bara finns ett exemplar av objektet för att efter ytterligare en tid helt raderas.

Cas ger en hög säkerhet och uppfyller krav på funktioner och egenskaper hos ett arkiv. Tekniken är inte den enda som finns och somliga, bland andra Staffan Strand på Hitachi Data Systems, menar att den inte är optimal. Enligt honom bör ett arkiv bygga på öppenhet där den arkiverade informationen så långt det är möjligt frikopplas från applikationen och inte binds med de proprietära metoder som används i många cas-lösningar.






Skulle sänka prestanda

Staffan Strand på HDS menar att tekniken skulle ge för stora prestandasänkningar i många produktionsmiljöer. I primärlagring finns inte heller samma redundanta lagringsmönster som i säkerhetskopieringar och därmed förlorar deduplicering sin poäng.

Per Sedihn ser andra möjligheter, även om det ännu rör sig om visionära idéer. Kanske kan deduplicering ändå användas inom primärlagringen om man så att säga placerar den bredvid dataströmmarna.

Det finns dock en risk med att stirra allt för ihärdigt åt det hållet. Valdis Filks på Sun menar att det är lätt att vi bara flyttar problemet eller kostnaderna till andra ställen.

– Deduplicering är exempelvis inte bra för långtidsarkivering, eftersom du tar bort alla block som är likadana utom ett. Det innebär att det blocket blir mångdubbelt viktigare. Om det försvinner eller skadas drabbas inte bara en fil, utan flera.


Därför måste företaget ha en policy för all lagring


Försök inte styra användarna att lagra olika information på olika ställen. Det går inte. Risken är överhängande att kostnaden du sparar äts upp av försöken att ändra användarnas beteende. All lagring måste vara transparent mot användarna. Låt dem lagra information och data på de sätt de är vana vid och möt utmaningen med teknik.

Däremot är verksamhetsstyrda policies nödvändiga för att exempelvis skapa effektiva lagringsmiljöer. Då handlar det inte om att styra användarna, utan om att styra och hantera informationen som skapas. Utan policies går det exempelvis inte att radera information.

För att kunna upprätta policies måste man utreda vilken information som finns och produceras. Vem i företaget som äger den och hur viktig är den.

– Det kräver oerhört mycket av ett företag att göra detta. Det är knappast en fråga om att göra allt på en gång, snarare avdelning för avdelning. Men det måste göras och du kommer att behöva verktyg för att göra det, säger Valdis Filks på Sun.

Även om det krävs it-verktyg för att genomföra en sådan kartläggning och genomgång är det egentligen ingen it-fråga utan en verksamhetsfråga. Den som ansvarar för it-miljön måste dock lyfta upp frågan på bordet.




Fiffig lösning kan få konsekvenser

Valdis Filks menar också att det inte finns några gratisluncher i lagringsvärlden. Om du exempelvis tar till en fiffig lösning som reducerar behovet av diskyta får du betala med ökad risk. Det kan förvisso motverkas med andra fiffiga lösningar, som i sin tur ger konsekvenser på andra håll i systemen. Det blir lätt en kedjereaktion som kan tendera att grumla helhetsbilden.

Hur som helst har det teknikutvecklande bolaget som Per Sedihn berättar om en klar helhetsbild. Det är dock svårt att hitta andra liknande exempel. Kanske för att lagring inte längre handlar så mycket om teknik utan mer om värdering av information.



» Mer lagring på webben


På vår specialsida om lagring på techworld.se hittar du allt om informationshantering. Vi testar hårdddiskar och nas-enheter, granskar gränssnittet esata, analyserar deduplicering och mycket mer.

» Läs mer om lagring på vår specialsida!


                             Illustration & grafik: Jonas Englund



Allt om lagring 

– en artikelserie i tre delar

Del 1: Spara – så väljer du rätt typ av lagring 
Del 2: Söka – verktygen för att indexera och hitta
Del 3: Säkra - så säkrar du informationen

Fakta



Ordlista


B/R, backup/recovery. Säkerhetskopiering och återställning.

Cas. Content addressable storage. Lagringsteknik som ger hög säkerhet.

Fc-san. Fiber channel-storage area network. Ett högpresterande lagringsnätverk som använder de snabbaste diskarna och fiberteknik för kommunikation.

Filvirtualisering. Innebär i princip att ett gemensamt, virtuellt, filsystem skapas för alla tillämpningar.

HSM. Hierarchical storage management. En gammal teknik för att styra lagring i olika nivåer. Se tiered storage.

Ip-lagring. Diskar som kommunicerar genom ip över ethernet, vanligen enligt iscsi.

Iscsi. Kommunikationsprotokoll för diskar i ett ethernetnätverk.

Nas. Network attached storage. Lagring som ansluts direkt till datornätverket.

Replikering. Överföring av data till och från en spegeldisk eller spegelsajt.

San. Storage area network, lagringsnätverk.

Snapshot/ögonblicksbild. För regelbunden säkerhetskopiering av innehållet på en disk.

Thin provisioning. Ger möjlighet att utnyttja befintliga diskar i högre grad.

Tiered storage. Nivåindelad lagring där typ av lagringsmedium väljs utifrån de varierande behoven kring åtkomsttid och nyttjande hos olika typer av information.




Så går du vidare:


» EMC – Största aktören inom lagring som siktar på att bli störst inom informationshantering.

»
Hitachi Data Systems – Nummer ett inom lagring för de största bolagen i Sverige. Har ett smalare fokus än EMC.

»
Network Appliance – Störst inom network attached storage.

»
HP – Säljer lagringslösningar men tillverkar inte själv.

»
IBM – Som HP.

»
Caringo – Har en annorlunda lösning på ett vanligt problem: att hitta en kostnadseffektiv lösning för arkivering.
» Proact – Svensk lagringsintegratör.

»
Exello – Svensk lagringskonsult.

»
Sun Microsystems – Leverantör av några av de största arkiveringslösningarna i Sverige.

»
Northern Parklife – Leverantör av program inom lagringshantering.

»
Enterprise Storage Forum – Om lagring från nättidningen internet.com.