Tidigare har personuppgifter i ostrukturerade data – som mejl och anteckningar i Word-filer – undantagits från personuppgiftslagen. Men i och med den nya dataskyddslagen GDPR är det slut med det.

Att få grepp om vad som finns i de enorma mängder ostrukturerade data som en kommun sitter på är ingen barnlek, konstaterar Peter Mankenskiöld, projektledare på kommunföreningen Sambruk.

– Strukturerade data är också jätteintressant, men de ligger ju i verksamhetssystemen där det finns leverantörer som hjälper till. När det gäller ostrukturerade data finns det ingen naturlig leverantör – det finns ingen som driver frågan, säger han.

– Dessvärre har jag hört kommentaren att Datainspektionen nog inte tittar på ostrukterade data i första hand. Men det här handlar inte bara om upptäcktsrisk med stora viten utan att vi också har ett moraliskt ansvar kopplat till den personliga integriteten. 
 

Peter Mankenskiöld
Peter Mankenskiöld.

Därför har kommunnätverket Sambruk, där nästan 100 kommuner samarbetar, dragit igång ett projekt för att skapa möjligheter att inventera ostrukturerade data med hjälp av artificiell intelligens. 10 kommuner går först i ledet och finansierar det hela.

Peter Mankenskiöld erkänner att det börjar brinna i knutarna.

– Det är svårt att få till möten med så många intressenter men jag räknar med att vi ska få fram en tjänst till i slutet av mars. Efter det kan vi dra igång inventeringen.

Läs också: AI förändrar hela samhället – det måste vi börja diskutera

Han är tydlig med att det inte handlar om att lösa problemet utan att hitta ett sätt att hantera det. Och det som projektet arbetar med att få fram är en paketerad AI-tjänst för inventering, och eftersom IBM varit med på projektet från start är det Watson det handlar om när det gäller just själva den mönsterigenkänning som ligger till grund för att lyckas skapa definitionerna av personuppgifter.

– Det finns ganska många terabyte ute på olika dokumentlagringsytor och vi vet inte vad. Och för att uttrycka det diplomatiskt så är det inte helt säkert att alla arkiverings- och gallringsregler applicerats på de här osorterade ytorna, säger Peter Mankenskiöld.

Tanken är inte att lämna över hela jobbet till datorn utan att använda den artificiella intelligensen till att sålla. Alla dokument där den identifierar något som kan misstänkas vara personuppgifter markeras och sedan gås de igenom manuellt.

– Det är väldigt viktigt att det inte är maskinen som bestämmer om det handlar om personuppgifter utan den som granskar. Det är den personen som avgör om det finns lagligt stöd för att lagra den personuppgiften eller inte – exempelvis laga stöd eller rättslig förpliktelse.

Det som till synes ser ut att vara samma typ av uppgift kan vara personuppgift eller inte beroende på olika omständigheter.

Han ger exemplet med en lista över fordon och registreringsnummer – är det privatpersoners bilar är det personuppgifter.

– Och samma sak om det är en företagsbil men som kan kopplas till att en viss person disponerar den.

Inventeringen är inte en engångskörning utan själva vitsen är att de människor som går igenom dokumenten som sållats också highlightar sådant som behöver kollas eller aldrig mer kollas och så vidare så att maskinen lär sig. I och med att inputen kommer från många kommuner ska inlärningen också kunna bli snabbare och effektivare och göra träffsäkerheten större för varje gång.

Läs också: GDPR: Här är allt du behöver veta om EU:s nya dataskyddsregler

– Det vi har arbetat med har mycket handlat om att få med de juridiska aspekterna i kravbeskrivningen och nu handlar det om att säkerställa funktioner med flera ingående komponenter och det är vår förhoppning att leverantörer kan paketera detta till en färdig tjänst. Vi har också konstaterat att det här inte kan vara en molntjänst. Man kan inte skicka personuppgifter fram och tillbaka, säger Peter Mankenskiöld.

– Tjänsten är tänkt att fungera centralt men också lokalt. Det är i den interna miljön som genomlysning och granskning görs och sedan återrapporteras metadata som handlar om att vässa de centralt lagrade gemensamma definitioner som AI-modellen arbetar efter.

Genomlysningen av en kommuns datamängder kommer att ta ett par timmar. Det kan jämföras med att om vi antar att en människa i genomsnitt hinner gå igenom ett dokument på upp till tre megabyte på tre minuter så hamnar vi på tio års arbete för en person per terabyte.

Intresset för tjänsten är stor enligt Peter Mankenskiöld, förutom de tio kommuner som går i bräschen håller han kontakt med uppåt 30 till. Och många har idéer om vad tjänsten kan användas till förutom att inventera personuppgifter.

– Det är ju intressant, men jag håller emot. Vi kan göra vad som helst sedan men just nu jobbar vi mot klockan. Vi har ungefär 70 arbetsdagar på oss – och så är det sportlov och påsk ... Så det är inte mycket att spela på. När vi fått ut första versionen kan vi andas ut lite grann.