Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomi
  • Svenska
  • English
  • Kirjaudu
Hakuohjeet
JavaScript is disabled for your browser. Some features of this site may not work without it.
Näytä viite 
  •   Ammattikorkeakoulut
  • Kajaanin ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite
  •   Ammattikorkeakoulut
  • Kajaanin ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite

Delta Lake tietovarastona

Sourander, Jani (2021)

 
Avaa tiedosto
Delta Lake tietovarastona - Jani Sourander - KAMK Opinnäytetyö 2021 - Rev 2.pdf (1.799Mt)
Lataukset: 


Sourander, Jani
2021
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2021110219177
Tiivistelmä
Tässä opinnäytetyössä keskitytään tietovaraston ja tietoaltaan yhdistelmän eli data lakehouse -arkkitehtuuriin ja sen käyttöönottoon. Opinnäytetyön taustalla on Polar Electro Oy:n tietovarastouudistus, jota minä olen ollut toteuttamassa data engineerinä. Tiimi, jossa työskentelen, vertaili palveluita ja arkkitehtuureja: korvasimme edeltävän tietovaraston modernilla ratkaisulla, jonka toteutusympäristönä on Databricks Lakehouse Platform -tietoalusta. Opinnäytetyössä esitellään alan keskeisimmät käsitteet ja tietovarastoinnin historian merkittävimmät vaiheet.

Työn produktiivisessa osiossa esitellään tietoalustassa ajettava koodi sekä luodaan Delta Lake -formaattiin perustuva medaljonkiarkkitehtuurin mukainen tietoaltaan pronssikerros. Esimerkeissä käytetään keinotekoista dataa, joka simuloi muodoltaan AWS Database Migration Service -migraatiopalvelun lataamia relaatiotietokannan tauluja. Tieto siirretään lastauslaiturilta tietoaltaaseen Apache Spark -ohjelmistolla, jota käskytetään ja orkestroidaan Pythonilla. Osion esimerkkikoodit on testattu tavallisella kannettavalla tietokoneella avoimen lähdekoodin toteutuksena. Opinnäytetyön vaiheiden toisintaminen ei vaadi maksullisen tietoalustan käyttöönottoa. Työssä esitellyt käyttökokemukset tuotantodatan kanssa perustuvat kuitenkin Databricks Lakehouse Platform -alustan käyttöön.

Kokonaisuutena tietovarastouudistus täyttää sille asetetut vaatimukset ja on onnistunut. Uusi tietoalusta on sekä nopeampi että edullisempi kuin edeltäjänsä, toimittajaloukun riski on matalampi avoimen lähdekoodin ratkaisuiden takia, uusia datalähteitä on helpompi lisätä kuin edeltäjäänsä ja alusta mahdollistaa koneoppimisen käyttöönoton matalammalla kynnyksellä kuin edeltäjänsä. Heikoiten täyttynyt kriteeri uuden alustan suhteen on sen maturiteetti: useat ominaisuuksista ovat yhä kehitysvaiheessa. Yhä tuoreen data lakehouse -arkkitehtuurin merkittävyyttä on turhan aikaista arvioida, mutta se esitellään yhtenä mahdollisena jatkeena tietovarastoinnin historialle.
Kokoelmat
  • Opinnäytetyöt (Avoin kokoelma)
Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatKoulutusalatAsiasanatUusimmatKokoelmat

Henkilökunnalle

Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste