Hadoop | Teknologi vi benytter

Previsna skreddersyr løsninger til kunder som har behov for sanntidsanalyse, historikkanalyser, lagring og backup av meget store mengder data. Vi benytter verktøy, teknologier og programmeringsspråk som Hadoop HDFS, Hadoop MapReduce, Apache Spark, Apache Storm og Scala.

Hadoop MapReduce

MapReduce er hjertet av Hadoop. Det er MapReduce som gjør det mulig for massiv skalering på tvers av hundrevis eller tusenvis av servere i en server-klynge. MapReduce konseptet er ganske enkelt å forstå for de som er kjent med parallell prosessering.

Hadoop tilbyr et rammeverk for å bygge dataprosesserende tjenester på toppen av svært mange datamaskiner. Det er MapReduce som står for parallellprosesseringen i Hadoop og er således en vesentlig del av Hadoop.

Hadoop HDFS

HDFS er et Java-basert filsystem som gir skalerbar og pålitelig datalagring. Det er designet for å kjøre på store klynger av servere. HDFS har blitt skalert opp til klynger på over 4500 server og 200 PB (PetaByte), med lagning på over en milliard filer og blokker. Kvalitet, kostnad og skalerbareheten til et Hadoop system er totalt overlegen tradisjonelle verktøry og systemer for håndtering av slike store mengder data.

HDFS er en skalerbar, feiltolerant, distribuert lagringssystem som er godt intergrert med et bredt utvalg av programmer og dataverktøy, gjerne koordinert med bruk av Yarn. HDFS er veldig stabilt og har en rekke sikkerhetsmekaniser for kontinuerlig drift. Ved å distribuere lagring og beregning over mange servere, kan den samlede lagerressurser vokser lineært etter behov, med tilsvarende kostnadskontroll.