Teknologi vi benytter

Previsna skreddersyr løsninger til kunder som har behov for sanntidsanalyse, historikkanalyser, lagring og backup av meget store mengder data. Vi benytter verktøy, teknologier og programmeringsspråk som Hadoop HDFS, Hadoop MapReduce, Apache Spark, Apache Storm og Scala.

Hadoop HDFS

HDFS er et Java-basert filsystem som gir skalerbar og pålitelig datalagring. Det er designet for å kjøre på store klynger av servere. HDFS har blitt skalert opp til klynger på over 4500 server og 200 PB (PetaByte), med lagring på over en milliard filer og blokker. Kvalitet, kostnad og skalerbareheten til et Hadoop system er totalt overlegen tradisjonelle verktøry og systemer for håndtering av slike store mengder data.

HDFS er et skalerbart, feiltolerant, distribuert lagringssystem som er godt intergrert med et bredt utvalg av programmer og dataverktøy, gjerne koordinert med bruk av Yarn. HDFS er veldig stabilt og har en rekke sikkerhetsmekaniser for kontinuerlig drift. Ved å distribuere lagring og beregning over mange servere, kan den samlede lagerressurser vokser lineært etter behov, med tilsvarende dynamiske kostnadsvekst.

Hadoop MapReduce

MapReduce er hjertet av Hadoop. Det er MapReduce som gjør det mulig for massiv skalering på tvers av hundrevis eller tusenvis av servere i en server-klynge. MapReduce konseptet er ganske enkelt å forstå for de som er kjent med parallell prosessering.

Hadoop tilbyr et rammeverk for å bygge dataprosesserende tjenester på toppen av svært mange datamaskiner. Det er MapReduce som står for parallellprosesseringen i Hadoop og er således en vesentlig del av Hadoop.

Apache Spark

Apache Spark er et verktøy for prosessering av store mengder data. I tillegg til tradisjonell batch-prosessering, har Spark støtte for prosessering av data gjennom en egen streamingmodul. Spark har også god støtte for å kjøre på Amazon Web Services (AWS), og lyntalen vil vise hvordan kombinasjonen Spark og AWS vil gi et meget kraftig verktøy for data-prosessering og analyse.

Apache Spark er en åpen kildekode stordata-plattform med skikkelig momentum. Den er ansett som arvtageren til Hadoop, hovedsaklig fordi den er raskere. Spark håndterer data smartere ved å minimere skriving til disk. Mindre disk IO og bedre optimalisert bruk av minne gjør at beregninger kan kjøre raskere.

Apache Storm

Apache Storm er en distribuert, feiltolerant åpen kilde-løsning for hendelsesbehandling i sanntid for store, raske datastrømmer. Den ble gjort berømt av Twitter, som brukte teknologien på sine omfattende tweet-strømmer. I en streamingarkitektur prosesseres data kontinuerlig i nær sanntid i stedet for i batcher.

Apache Storm gjør det mulig å bygge skalerbare applikasjoner som kan behandle store mengder samtidige data. Vi har god erfaring med bruk av disse i våre prosjekter.

Scala

Scala er et funksjonelt og objekt-orientert språk som kjører på JVM-en. Det er et statisk typet språk som har et mye sterkere typesystem enn Java. I tillegg har språket sterk type-inferens som betyr at en slipper å skrive typer over alt. Dette gjør at språket ser dynamisk ut, selv med en streng kompilator.

Scala benyttes i dag mye innen fagfeltet som populært kalles "Big Data". Scala har tatt mye lærdom og inspirasjon fra andre språk, funksjonell programmering fra blant annet Scheme, ML og Haskell, og objekt-orientering fra blant annet Smalltalk og Java.

En av fordelene med Scala er at det muliggjør en gradvis overgang fra tradisjonell objektorientert programmering til det funksjonelle paradigmet.

Andre teknologier vi jobber med: Blockchain | Bitcoin | Ethereum | IoT | Kunstig intelligens