Allt om lagring

– en artikelserie i tre delar

Del 1: Spara – så väljer du rätt typ av lagring
Del 2: Söka – verktygen för att indexera och hitta
Del 3: Säkra – så säkrar du informationenUtmaningen var gigantisk. 40 000 användare. Kontor över hela världen. Ett växande och allt viktigare informationsberg.

Det anrika verkstadsföretaget SKF är en stjärna på att tillverka kullager och andra verkstadskomponenter. Företaget har inte varit lika duktigt på att hantera och utnyttja sin information. Men de lär sig och för några år sedan tog de som man säger ett helhetsgrepp på problemet.

Efter en grundlig analys av behoven hade ledningen i koncernen nämligen bestämt att SKF inte längre var ett verkstadsföretag, utan ett kunskapsföretag. Eller rättare ett knowledge engineering company. Framgången hänger på kunskapen.


Söka information tog tid

En av delarna i det greppet var en synnerligen omfattande sökfunktion, som kom på plats för drygt tre år sedan. Några av de konkreta problem som företaget hade var att för mycket tid gick åt för leta efter information.

– Tidigare kunde det ta allt mellan några minuter till flera dagar för en användare att hitta rätt dokument, med sökfunktionen tar det oftast bara några sekunder, säger Carlos Garcia Timón, en av de ansvariga för projektet på SKF.

Ett annat problem var att användarna inte alls hittade rätt information eller att de över huvud taget inte visste att en viss typ av information fanns. Det innebar att mycket dubbelarbete utfördes.

SKF:s situation är långt ifrån unik. De flesta företag lider av att informationen de har inte går att hitta eller nå på ett bra sätt. Och SKF är inte heller unika i att de har valt en sökplattform som en del av lösningen.

– Allt fler företag börjar titta på sökverktyg som ett sätt att hitta och använda sin information, säger Helge Legernes på sökkonsulten Findwise.

För två och ett halvt år sedan var det inte särskilt många företag som hakade på när Findwises säljare ringde och ville presentera söklösningar. I dag är det avsevärt lättare. Det har hänt mycket när det gäller medvetenheten och engagemang kring den här typen av lösningar.


”De flesta företag lider av att information inte går att hitta eller nå på ett bra sätt.”SKF har haft sin lösning på plats sedan 2004, även om den inte är fullt utbyggd än. I kärnan finns en sökmotor från norska Fast, som för övrigt nyligen förvärvades av Microsoft. Helge Legernes pekar på den tillsammans med amerikanska Autonomys verktyg som de ledande.

– De två leverantörerna utgör det översta skiktet och används framför allt av företag som har höga krav på sökfunktioner, säger han och lägger snabbt till att IBM är på väg att närma sig.

De övriga två aktörerna som finns på Helge Legernes karta över de största och mest intressanta sökleverantörerna är Microsoft och Google.


Har byggt vidare på egen hand

Även om SKF inte är ensamt om att skaffa ett sökverktyg är det inte särskilt många företag som gör lika omfattande projekt som verkstadsföretaget. Företaget har också byggt vidare på sökplattformen för att få funktioner som inte fanns i den från början.

– Det är ett oerhört omfattande projekt både till volym och till antal användare som berörs, säger Carlos Garcia Timón på SKF.

Han berättar att det har krävts en hel del arbete med att förse information med metadata och att klassificera information. Totalt rör det sig i dag om 2,3 miljoner dokument. Leverantörer säger ofta att det manuella arbetet inte behövs. De hävdar att deras system kan ta hand om metadatagenerering och kategorisering av information automatiskt.

Carlos Garcia Timón vet förstås hur snacket hos leverantörerna går och han vet att det inte alltid stämmer med verkligheten.

– Det är klart att man i en organisation som vår måste lägga ner en hel del manuellt arbete på att förbereda och anpassa informationen så att den passar in i den struktur som företaget använder.


Skapar en taxonomi

Inom sökvärlden säger man inte kategorisering, man säger att man skapar en taxonomi. De mer avancerade sökverktygen klarar att göra detta automatiskt, men för att bibehålla den informationsstruktur och det sätt att se på information som sedan länge är etablerat, i SKF:s fall sedan 1950-talet enligt Carlos Garcia Timón, måste någon tala om för sökverktygen hur den strukturen ser ut.

Att anpassa information är alltså en av uppgifterna för ett företag som går in i ett sökprojekt. Helge Legernes på Findwise förklarar vilka några av de övriga utmaningarna är. Det är utmaningar som han hävdar inte är särskilt kända, eftersom bland andra Google har fått världen att tro att sökning är enkelt.

Sökningar på internet har dock förvånansvärt lite gemensamt med sökningar i ett företagsnät. På nätet handlar det i princip om att följa länkar och bygga ett index utifrån html-sidor. Länge handlade själva rangordnandet av resultaten av en sökning också bara om hur många länkar som pekade till en viss sida. Fler länkar gjorde att den hamnade högre upp i resultatet. I dag är de flesta nätsöktjänster mer sofistikerade, men de är fortfarande tämligen enkla i förhållande till hur ett verktyg i ett företagsnät måste arbeta.

– Till att börja med ska du ner i tillämpningar med tillhörande databaser och också gå igenom ostrukturerade data som består av en mängd olika dokumenttyper, säger Helge Legernes.6 centrala funktioner i sökverktygKlustring.
Innebär att resultaten inte bara visas i en enda lång lista, utan dessutom grupperade efter typ av dokument eller typ av källa. Exempelvis kan en sökning på projektledning resultera dels i en lång lista, dels i en kort som talar om att motorn har hittat si och så många resultat inom området it-projektledning, si och så många resultat inom område Utbildning av projektledare etcetera. Klustring görs automatiskt av flera av de större sökmotorerna.

Media. De mer omfattande sökverktygen hittar inte bara textbaserad information. Exempelvis kan Autonomys verktyg söka igenom och hitta information i ljud- och bildfiler också. Genom att använda tal till text-omvandling blir exempelvis videoklipp sökbara och med avancerad bildbehandling går det att söka på personer utifrån en bild. Det finns även nischade verktyg som klarar det här.

Relationer. När ett sökresultat presenteras kan en del sökverktyg också presentera dokument eller information som hänger ihop med det eftersökta. Sökverktyget försöker tolka innehållet i sökresultaten och hittar annan relevant information. Det handlar inte om sökord eller metainformation, snarare om något som påminner om AI (artificiell intelligens).

Relevans. Verktygens relevansmodeller går inte att påverka i grunden, däremot går det att göra fininställningar av hur dokumentens relevans beräknas. Grundregeln är föga förvånande att dyrare verktyg har större möjligheter till det här än billigare.

Rollbaserad sökning.
Användare med olika roller på ett företag får upp olika resultat av samma sökning. Resultaten återspeglar den roll som användaren har, en ingenjör får upp tekniska fakta och en säljare marknadsrelaterad information.

Taxonomier. För att effektivisera sökningar delas dokument upp i just olika taxonomier. Antingen görs det av företaget, som talar om vilka taxonomier som ska användas, eller så gör sökverktyget det genom att analysera användarnas beteende. När den senare metoden används kallas det ofta att man skapar ”folksonomier”.

Visas inte för alla användare

För att lösa den delen behövs inte mer än ganska enkel teknik och en del konsulttid, men det är knappast en simpel uppgift. För att säkerheten ska bibehållas måste sökplattformen också ta hänsyn till vem det är som söker och låta bli att presentera länkar till de dokument som vederbörande inte har rättighet att se.

Somliga sökverktyg presenterar även sådana dokument i resultatlistan och stänger bara användaren ute från att se själva dokumentet. Ett sådant system är förstås inte särskilt säkert.

Den verkliga utmaningen är att välja hur sökningen ska tolkas och vilka dokument som ska presenteras i resultatet. I söksammanhang talar man om relevansmodeller. Och här börjar historien bli lite dimmig, eftersom ingen tillverkare vill tala om hur just deras produkt räknar ut vilka dokument som ska visas efter en sökning.

En uppenbar skillnad mellan olika produkter är vilka möjligheter som finns att göra fininställningar av hur relevansmodellen fungerar. Det handlar bland annat om att kunna sätta upp ordlistor för att ge sökmotorn en bättre förståelse av sökningarna och i övrigt ange hur ord och formuleringar i sökningen ska tolkas och värderas.

Whit Andrews, analytiker på analysföretaget Gartner, pekar i en rapport på vikten av att verkligen utnyttja möjligheterna att justera relevansmodellen och att göra det kontinuerligt. Det duger inte att göra det vid installationen och sedan aldrig mer. Nya ord och begrepp dyker upp och företagets verksamhet kanske förändras över tid. Då behöver sökmotorn också anpassas så att den hänger med i utvecklingen.


Kan avslöja företagshemligheter

Whit Andrews pekar på en annan viktig aspekt av justeringar i relevansmodellen, nämligen säkerhet. Information om hur sökmotorn ska tolka sökningar kan avslöja viktiga data om företagets verksamhet, information som lätt kan säljas till konkurrenter. Därför måste sådana saker som ordlistor och hur olika sökord viktas vid sökningar, en annan möjlighet att trimma relevansmodellen, hanteras som känslig information.

”När någon söker på SKF får de också upp en lista över personer i organisationen som är duktiga på det sökta.”


De mest avancerade systemen på marknaden, Fast och Autonomy, har ett försprång när det gäller bland annat relevansmodellen. Medan de övriga produkterna bygger på sökord klarar dessa något som kallas kontextuell sökning. Det innebär att du kan skriva in ord i sökrutan som inte ens finns i de dokument som visas. Victor Cohen, Nordeuropachef på Autonomy, förklarar:

– Om du skriver ”ett djur med fyra ben, päls, svans och en blöt nos” i sökrutan får du upp träffar på dokument som handlar om hundar.

Även Fast har alltså den här typen av funktioner. Helge Legernes ser att trenden mot att sökmotorer närmar sig AI (artificiell intelligens) också driver de övriga leverantörerna. Fasts och Autonomys försprång minskar.

Relevansmodellen är förstås avgörande, eller snarare vilka möjligheter du har att påverka hur systemet beräknar relevansen hos dokumenten för användarna. Ett annat område som är avgörande är om sökverktyget klarar rollbaserad sökning. Det gör de flesta av de större systemen.


Säljare får marknadsinformation

På SKF innebär den rollbaserade sökningen att en ingenjör som söker information om en viss komponent får upp sådant som rör den tekniska konstruktionen, medan en säljare som gör samma sökning får upp marknadsinformation.

– Det gör förstås hela systemet avsevärt mer komplext att sätta upp, men det ger en betydligt mer effektiv sökning och allt fler väljer därför att använda sig av det, säger Helge Legernes.

Systemet på SKF har en funktion som blir allt mer efterfrågad och som faktiskt bara finns som färdig funktion i Microsofts sökverktyg, som är en del av Sharepointplattformen. Den handlar om att hitta folk. När någon gör en sökning på SKF får vederbörande inte bara upp en lista över dokument, utan också över personer i organisationen som är duktiga på det område som eftersöktes.

– Om personen är uppkopplad till nätet går det att börja chatta med honom eller henne direkt, från själva sökvyn, säger Carlos Garcia Timón.

Hitta folk-funktionen är hittills en av de mest uppskattade på SKF. Det är också motsvarande funktion i Microsofts lösning som är det som framför allt drar Helge Legernes intresse till just Microsofts lösning.

Vilket system ett företag väljer beror förstås på många faktorer. Ytterst handlar det om vilket behov företaget har. Vilken typ av information behöver hittas? Vem behöver hitta den? Var finns informationen? Varför hittas den inte i dag? Det är några av de frågor som Helge Legernes ställer i inledningsfasen av ett sökprojekt.

– Sedan tittar jag på den tekniska miljön. Om företaget har en tung IBM-miljö, ja, då pekar ju mycket åt IBM-hållet även för sökverktyget. Bygger plattformen på Microsoft är förmodligen deras lösning en bra väg att gå, säger han.”Motorerna fungerar mer som hjärnan”Framtiden handlar förstås om allt mer sofistikerade verktyg. Helge Legernes på Findwise ser att det går mer åt AI-hållet (artificiell intelligens), att motorerna i allt högre grad kommer att fungera mer som den mänskliga hjärnan.


Helge Legernes, Findwise.

– Fast-motorn kan exempelvis redan i dag känna av värderingar i uttryck, visserligen enkla sådana som negativt och positivt, men det visar åt vilket håll vi rör oss, säger Helge Legernes.

Tekniken kommer aldrig att helt kunna efterlikna den mänskliga språkanvändningen, menar analytikern Debra Logan på Gartner. Hon tror inte att sökmotorer har den ljusa framtid som många spår.

– Sök är inte lösningen på problemet att vi inte hittar rätt information.

Söktekniker ger helt enkelt inte tillräckligt bra precision, menar Debra Logan. Visserligen leder de en bit på vägen, men de kommer inte inom en överskådlig framtid att bli tillräckligt bra.

Debra Logans svar på hur framtiden inom sök kommer att te sig har inte ens med tekniken att göra, utan handlar om en genomtänkt och strukturerad informationshantering. I stället för sök tror hon att informationsarkitekten kommer att få den viktigaste rollen hos organisationer där rätt information till rätt medarbetare i rätt tid är avgörande.

En annan trend är utvecklingen av sökintegrationsmotorer. De gör inga egna sökningar, utan förlitar sig på sökmotorer som finns i anslutning till den datakälla som ska genomsökas. Integrationsmotorn, som Håkan Blomquist på EMC kallar den, ser till att koppla samman alla olika sökmotorer för att ge användaren ett enhetligt gränssnitt att söka från.

– Många företag vill inte lägga ut index över känslig information utanför tillämpningen som rymmer informationen, varför en traditionell sökmotor då inte fungerar. Det kan också vara svårt för en sådan att komma åt alla data i system som är omgärdade av säkerhetsspärrar. Med en integrationsmotor utnyttjas de sökfunktioner som finns i själva tillämpningen, vilket gör det betydligt enklare att upprätthålla nödvändig säkerhetsnivå, säger Håkan Blomquist.

EMC är förstås en part i målet här, eftersom företaget har en dylik produkt kallad ECIS (Enterprise Content Information Services).
Snabbt igång med Google Mini

Till syvende och sist handlar det förstås om funktioner. I SKF:s fall räckte ingenting annat än det bästa som fanns. Då handlade det också om ett stort projekt som ägnas mycket resurser både i form av tid och av pengar.

De flesta mindre företag befinner sig förmodligen inte där. För många räcker en enklare och billigare lösning. En av de mest populära och lättinstallerade kommer från Google. Företagets allra billigaste variant heter Google Mini, kostar från 3 000 euro (cirka 28 000 kronor) och beställs på nätet.

Enkelheten beror dels på att den faktiskt inte har särskilt många funktioner, dels på att den levereras som en färdig maskin.

– Du pluggar in den, konfigurerar den enkelt och är snabbt igång. Det tar någon eller några timmar bara, säger Helge Legernes.

Då får du som sagt inte heller särskilt många funktioner. Du får förstås sök, men du får exempelvis inte rollbaserad sök. Framför allt kommer du inte åt den information som finns i de tillämpningar företaget använder. En Google Mini-apparat kommer bara åt den ostrukturerade informationen på filservrarna.

Nästa steg är förmodligen Google Search Appliance. Det är också en låda som monteras i ett rack och ansluts till nätverket. Den klarar betydligt mer än Mini-versionen, även om den i sitt ursprungsutförande inte heller har särskilt många funktioner. Till skillnad från Mini går det med egen utveckling att skräddarsy den efter behov.

Tanken från Googles håll är att fristående utvecklare ska bidra med funktioner som sedan ska gå att köpa från en marknadsplats på nätet.

– Den största fördelen med Googles sökverktyg är att de går snabbt att komma igång med, säger Helge Legernes.3 företag om sina söklösningarRegion Skåne valde Google Search Appliance.


Anna Steen

– Med fler än 200 webbplatser, med totalt cirka 63 000 sidor, och drygt 34 000 anställda inom Region Skåne hade vi ett stort behov av en bra sökmotor för både intern och extern sökning, säger Anna Steen, som är system- förvaltare för Skåneportalen.

Verktyget skaffades alltså främst för webb- och portalsökning.Sökbehovet hos Statens Ljud- och bildarkiv är paradoxalt nog inte särskilt stort.


André Wachholz 

Informationschefen André Wachholz säger att de främst använder intranätet för kommunikation inom organisationen.
2004 skaffades en enkel lösning från Teleca, Publishing Server.
En ännu enklare ersättare är förmodligen är på väg

– Vi har inte bestämt oss, men det lutar åt Google.I Riksarkivet förvaras handlingar från medeltid fram till nutid.

Göran Kristiansson

I dag finns exempelvis 57 miljoner bilder av dokument i arkivet. Kraven på struktur, utformning och funktioner hos arkivet är ytterst speciella, varför Riksarkivet har utvecklat en egen sökplattform som är nära sammankopplad med själva arkivet.


– Det finns ju inga produkter att köpa som klarar den här typen av användning, säger Göran Kristiansson, förstearkivarie på Riksarkivets it-avdelning.

Data måste tvättas

Därmed inte sagt att det nödvändigtvis är svårt att komma igång med sökverktyg. Även om de flesta andra verktyg kräver lite mer initialt arbete kommer den stora arbetsinsatsen ändå senare, när sökfunktionen är på plats.

Det handlar om datatvätt. Det första indexet som sökmotorn sammanställer innehåller ju allt, även inaktuella versioner av dokument och halvskrivna rapporter. Sådant som egentligen bara är skräp. Det måste tas bort.

– Många glömmer den här biten när de gör ett sökprojekt, men det är förstås väsentligt för att användarna i fortsättningen ska få upp relevant information i sina sökningar, säger Helge Legernes.

Han hävdar att produkterna inte är särskilt väl anpassade för just den här datatvätten. Det borde finnas möjligheter för användarna att enkelt rapportera om dokument som inte är annat skräp än och som de tycker borde tas bort. I allmänhet saknas bra funktioner för den hanteringen, enligt Helge Legernes.

SKF har koll på sådana saker, liksom på de flesta andra områden som hör till deras sökplattform. Företagets verktyg är visserligen på plats, men projektet är långt ifrån avslutat. Nästa steg handlar om att ansluta centrala tillämpningar som erp- och bi-system. Anledningen till att de ännu inte har kunnat göra det är att det kräver att ett antal frågor kring säkerheten löses.

Dessutom pågår hela tiden en intrimning av systemet och den övergripande informationshanteringen, så att medarbetarna får en allt högre precision i sina sökningar.

– Arbetet med att göra information tillgänglig för våra medarbetare på ett effektivt sätt tar inte slut i och med att vi skaffade sökplattformen. Den är bara ett av flera verktyg som underlättar det arbetet, säger Carlos Garcia Timón.
Illustration: Jonas Englund
Allt om lagring

– en artikelserie i tre delar

Del 1: Spara – så väljer du rätt typ av lagring
Del 2: Söka – verktygen för att indexera och hitta
Del 3: Säkra – så säkrar du informationen
» Läs mer om lagring på vår specialsida!

Fakta


Ett urval av leverantörer som erbjuder sökverktyg:

» Autonomy Idol Server
» Blossom
» Coveo Enterprise Search
» Doclinx
» Dtsearch Engine
» Endeca Information Access Platform
» Fast Search
» Funnelback Enterprise
» Google
» Grokker Enterprise Search Management
» IBM Omnifind Enterprise Edition
» Intellisearch
»
Microsoft Sharepoint Search Server
» Mondosoft Mondosearch
» Northernlight
» Oracle Secure Enterprise Search 10g  
» Siteseeker Appliance
» Thunderstone Parametric Search Appliance 
» Ultraseek
» Vivisimo Velocity


Öppen källkod:

» www.lucene.net
 

Annonsbaserade sökverktyg:

» www.crawl-it.com
» www.freefind.com
» www.webinator.com
» omnifind.ibm.yahoo.net