För några år sedan var big data om inte moderord nummer ett, så i alla fall ett av de mest hajpade. I kölvattnet av big data riktades också mycket intresse mot tekniklösningar som Apaches Hadoop.

Intresset för big data har å ena sidan avtagit, å andra sidan lever det kvar under andra namn, som maskininlärning och dataanalys. Och det finns gott om projekt som har kommit i gång på allvar. Som så ofta med ny teknik så avtar bruset när tekniken börjar användas på riktigt.

Ett vanligt sätt att förvara de stora datamängder som ska användas för analyser är i alla fall att hälla dem i datasjöar. En datasjö kan beskrivas som en lagringsplats där data från olika källor lagras utan att transformeras till något nytt format.

Läs också: Han lägger grunden för smarta städer

Enligt Syncsort, en leverantör av integrationslösningar, så händer det en del inom big data, inte minst vad gäller datasjöar. Det berättar man om i en rapport som heter 2018 Big Data Trends: Liberate, Integrate & Trust. Nästan 200 personer som beskrivs som dataarkitekter, it-chefer, utvecklare och dataanalytiker inom olika branscher deltog i undersökningen som ligger till grund för rapporten.

Tre starka trender för datasjöar lyfts fram inför nästa år:

Trend 1: Mer traditionella datakällor

Den vanligaste typen av datakälla för data i datasjöar är traditionella relationsdatabaser. 69 procent av respondenterna använder sådana, vilket kan jämföras med 61 procent förra året. Datalager (data warehouses) ligger tvåa med 63 procent och nosql-databaser trea med 46 procent. I det senare fallet handlar det om ett lyft från 35 procent förra året. Olika typer av lagringslösningar på molntjänster (cloud repositories) används av 40 procent.

Slutsatsen är att allt fler fyller på sina datasjöar med flera typer av data. Och att turen på allvar har kommit till att hämta data från traditionella applikationer.

Trend 2: Stordatorn plockas på data

Inte nog med att relationsdatabaser bidrar till datasjöar i högre grad, intresset är stort för data som hanteras av stordatorer. 97 procent av respondenterna som jobbar med stordatorer anser att det är viktigt att ordna åtkomst i realtid till data som hanteras av dem. Det är en ökning med 27 procent jämfört med föregående år.

Trend 3: Bättre cirkulation i datasjöarna

Även om vitsen med datasjöar till skillnad från traditionella datalager är att inte behöva tranformera data, så ses de som en praktisk del i lösningar för just transformation av data, eller ETL (extract, transform, load) som är begreppet som används. 71 procent av respondenterna ser ETL som det mest lämpliga användningsområdet för datasjöar. Förra året tyckte bara 53 procent det, vilket gav en tredjeplats då.

Läs också: 10 heta trender inom analytics – och 5 som svalnar av

Avancerad och prediktiv analys lägger beslag på andraplatsen, med 64 procent, och realtidsanalys tredjeplatsen, med 60 procent.

Samtliga tre aktiviteter ställer stora krav på att data är aktuella. Med tanke på det är det oroväckande att 75 procent av respondenterna rapporterar om problem med att synkronisera sina datasjöar med förändringar i datakällorna. Det gäller framför allt datakällor som är svåra att ordna åtkomst till, som de som hanteras av stordatorer.

Att ETL nämns som främsta användningsområdet för datasjöar pekar på att datasjöar och traditionella datalager växer ihop i högre grad än tidigare. Det kan tyckas lite konstigt med tanke på att ett starkt argument för datasjöar har varit att man ska slippa hantera datalager. Men det är förstås positivt om datasjöar underlättar hanteringen av datalager.