it-haveri

Det har hänt antal gånger på senare tid att många system på en myndighet eller ett företag har havererat samtidigt. Anledningarna är förstås många och oftast komplexa, men när man väl står där är det bara en sak som gäller: Få igång systemen igen så fort som möjligt.

Det är i sin tur en uppgift som till stor del beror på dels vilka funktioner som är viktigast för just den här organisationen, dels hur bra man varit på att planera för sådana här situationer. Ändå brukar några hållpunkter vara gemensamma för i princip alla sådana fall. Vi går här igenom några sådana generella steg på vägen för att komma igång igen.

Scenario

Ett företag sköter en stor del av sin kundinteraktion via webbaserade system. Dessutom ligger systemen för intern hantering av administration av olika slag i samma datorhallar.

Nu har man råkat ut för ett storskaligt it-haveri, där i princip alla system gått ned och man kan räkna med att data i systemen förstörts. Man har dock hårdvaran i behåll, eller har kunnat ersätta den väldigt snabbt.

Nu gäller det att så fort som bara möjligt komma igång med allt igen, både att hålla verksamheten tillgänglig för kunderna och för att kunna fungera internt.


1. Förstå läget

Innan man kan åtgärda skadan på ett rationellt sätt gäller det att förstå hur omfattande den är. Det betyder inte att man behöver känna till de exakta förlusterna av data, sådant märker man ofta först när återuppbyggnaden pågår. Däremot behöver man veta vilka system som gått ned, och om nätverk eller hårdvara är skadade.

I detta första, förberedande steg är det förstås också viktigt att se till att få slut på sådant som kontinuerligt kan störa ut systemen, om det är sådana avbrott det är fråga om. Kanske behöver man tillfälligt stänga av sin internet-förbindelse om det är en attack utifrån som stängt ned systemen. Kanske behöver säkringar eller elledningar åtgärdas.

guide 1

2. Prioritera

Det här är förstås en typisk tänka-efter-före-punkt. Man borde alltid ha klart för sig hur de olika systemen ska prioriteras i förhållande till varandra. Är det viktigaste att webplatsen kommer upp, eller kanske att ekonomisystemet kan användas igen?

Har man inte gjort upp planer med sådana prioriteringar i, så är det hög tid att göra det nu genast. Om det inte är uttalat vad som är viktigast är det nämligen stor risk att det som åtgärdas först är det som någon internt skriker mest om, vilket inte nödvändigvis är det som verkligen är viktigast för företagets verksamhet.

guide 2

3. Bilda arbetsgrupper

Samla de människor som behövs för att få igång respektive system och låt dem arbeta på saken. Grupperna jobbar parallellt och behöver inte koordinera med varandra.

Förutsatt att prioriteringen är klar kommer det stå helt klart för de personer som behövs i flera sådana grupper vilka uppgifter som ska göras först.

Samtidigt vill man att de som konkret jobbar på att få igång sakerna ska få arbeta ostört. Koppla därför in en sekreterare – eller en mellanchef – som får till uppgift att skydda respektive grupp från störningar genom att till exempel vara den som svarar i telefon.

guide 3

4. Dra igång servrar och kolla backuperna

Backuper borde alltid finnas, men när man väl står där märker man allt för ofta att inte backuptagningen har fungerat.

Samtidigt som man återstartar servrar bör man kontrollera sina senaste backuper. Då vet man förhoppningsvis redan när man börjar installera igen om det finns någon färdig systembild att använda, eller om program måste installeras på nytt, och man märker vad som är den senaste databackupen och ungefär hur stor den är. Det påverkar i sin tur hur lång tid det tar att återställa data.

guide 4

5. Installera system och läs tillbaka backuperna

Nu när man vet vad man har, kan man se till att få igång systemen igen. Installera det som behövs, börja läsa tillbaka backuper för data. Men glöm inte att om det är viktigt att någon funktion kommer igång, kanske man ska börja med att bara försöka få igång delar av systemen. Kanske är det viktigt att en sajt för registrering kommer igång (som efter Försäkringskassans stora haveri) medan man kan vänta någon dag på att få tillgång till tidigare registerat data igen.

Om det är riktigt kritisk verksamhet det handlar om har man förhoppningsvis också sätt att få den att fungera hjälpligt utan it-systemen, och i det fallet kan det vara de mest arbetskrävande delarna man vill få att fungera först, även om det betyder att man till exempel inte plockat tillbaka hela databasbackupen ännu.

guide 5

6. Dags att återskapa

Även om man hade utmärkt fungerande och aktuella backuper fanns troligen inte precis alla data där, i alla fall inte i system som används kontinuerligt och där data tillkommer varje minut. När man nu har det mesta igång igen, är det därför dags att se vad man behöver återskapa manuellt.

Kanske behöver man också be kunder som tillfört data det närmaste dygnet före kraschen om att göra det igen, eller på annat sätt hjälpa till med att komplettera den information man har.

7. Analysera orsakerna

Igång igen? Skönt. Då är det dags för nästa stora arbete, nämligen att ta reda på vad som egentligen gick fel. För att få igång systemen igen räcker det oftast med en ganska ytlig förståelse av vad som hänt, men när det akuta problemet är löst är det dags att göra en ordentlig undersökning.

Nu är det dags att fråga sig hur och varför haveriet inträffade, och givetvis också fundera över vad som kan göras för att undvika att det händer igen. Att ägna sig åt att hitta syndabockar för förstås sällan produktivt, men om det visar sig att en leverantör av till exempel serverdrift inte levt upp till sina åtaganden kan det också vara dags att se sig om efter en andra leverantörer.

guide 7

8. Uppdatera planer och rutiner

Gick återställningen bra? Tog det för lång tid? Vad fungerade och vad fungerade inte? Se över planer och rutiner, men se också till att alla inblandade känner till dem.

En väldigt vanlig orsak till fördröjningar är att det inte riktigt står klart vem som ska göra vad – klargör allt sådant, sätt det på pränt och delge alla som berörs.

Se också över hur man gör ändringar i allt som rör systemen. Det är nämligen väldigt ofta dåligt organiserade eller icke dokumenterade ändringar som gör det svårt att riktigt veta vad det är man har att återskapa efter ett haveri.

TechWorlds slutsats                                          

Se till att det står klart vad som behöver återställas först, och att alla inblandade får arbeta ostört för att få igång systemen igen.

Sedan, när det väl är gjort, kan man fundera på vad som inte fungerade och vad man kan göra åt den saken.

Men när systemlandskapet blir allt mer komplicerat och utspritt, kommer också återställning efter ett stort haveri att bli mera komplex och troligen ta längre tid än förr. Därför bör man också veta hur man kan klara de viktigaste arbetsuppgifterna utan att ha tillgång till sina vanliga it-system.

orski