Oskar Carlstedt som driver det nystartade företaget Bricksource har en gedigen it-bakgrund inom bland annat finansbranschen. Där har han lagt märke till att många företag har svårt att utvinna relevant information ur sina transaktionsdata.

Tillsammans med Richard Lundin och Lars Henriksson driver han ett projekt som går ut på att använda Apaches öppna sökmotor Solr för att hantera stora volymer transaktionsdata. Tanken är dels att kunna hitta relevant information snabbt, dels att snabbt kunna vaska fram intressanta datamängder som kan skickas vidare till specialiserade analysverktyg.

Läs också: Öppen källkod glödhett bland it-jättarna – här är 10 produkter som blivit open source

Projektet som heter Ginnungagap, se faktaruta, är i ett inledande skede. Det finns en fungerande lösning som skapats baserat på behov hos ett företag i finansbranschen, men ännu är inga kunder i gång i skarp drift. Tekniken fungerar inte bara för ekonomiska data utan i princip för vilka data som helst, men finansföretag är en intressant målgrupp eftersom de har klart definierade behov, bland annat på grund av Sox och annan lagstiftning. Och så har de förhoppningsvis pengar för att satsa på nya tekniska lösningar.

ginnungagap
Oskar Carlstedt och Richard Lundin gör ekonomiska data sökbara med Apaches sökmotor Solr.

– När vi testkörde med en server i prisklassen 40 000 kronor indexerade vi 30 miljoner transaktioner på tolv timmar. Indexet som är på 15 GB hanteras i minnet och söktiderna ligger på under 10 millisekunder, berättar Richard Lundin under ett föredrag på konferensen Tech Day som anordnades i Stockholm av konsultbolag Init i torsdags.

Transaktionsmängden motsvarar ett års händelser för testföretaget. Att få fram 350 000 originaltransaktioner baserat på ett sökresultat går på 35 minuter. Richard Lundin påpekar att det finns utrymme för optimering av den funktionaliteten, men att det ändå går väldigt mycket snabbare än med mer traditionella lösningar. För att lagra originaltransaktionerna används nosql-databasen Cassandra.

Läs också: Här är världens tio mäktigaste superdatorer

Vitsen med sökmotorlösningen är att det går snabbt att indexera inkommande data, att sökningarna blir snabba och att lösningen är skalbar genom att flera servrar används.

Vad kan man upptäcka i data som hanteras?

– Till exempel att ett företag har gjort 1 000 betalningar en månad, men bara mottagit 50 betalningar månaden innan. Eller att en viss bank har mottagit 100 000 betalningar på över 1 000 dollar från Irak, förklarar Oskar Carlstedt.

Den här typen av analyser är viktiga för att upptäcka bedrägerier och andra skumma hanteringar. Med sökmotortekniken är antalet sökbara fält i princip obegränsat och uppsättningen av fält behöver inte vara den samma för olika datakällor. Ett exempel på ett fält är betalningsmottagare om det handlar om transaktioner, ett annat belopp.

Att datakällor inte behöver innehålla samma information, förutom nyckelbegrepp som gör det möjligt att koppla ihop dokument från olika datakällor, ger flexibilitet jämfört med traditionella datalager. Förutom att söka på information i olika fält finns det även fritextsökning.

Fakta

Namnet Ginnungagap kommer från den nordiska mytologin. Det står för det tomma utrymme som representerar det ursprungliga kaoset, innan gudarna blev till.