Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomi
  • Svenska
  • English
  • Kirjaudu
Hakuohjeet
JavaScript is disabled for your browser. Some features of this site may not work without it.
Näytä viite 
  •   Ammattikorkeakoulut
  • Yrkeshögskolan Arcada
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite
  •   Ammattikorkeakoulut
  • Yrkeshögskolan Arcada
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite

Robust Data Pipeline With NiFi, Spark and Lakehouse Architecture

Nguyen, The Huy (2025)

 
Avaa tiedosto
Nguyen_Huy.pdf (1.446Mt)
Lataukset: 


Nguyen, The Huy
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025121134755
Tiivistelmä
The rapid growth of data generated from sensors, transactions, mobile devices, and online platforms has created significant challenges for organizations seeking to transform raw data into actionable insights. As data volume and variety continue to expand, traditional ETL systems often suffer from limited scalability, high latency, and complex maintenance requirements. This has driven the need for modern, scalable, efficient, and fault tolerant data pipelines capable of reliably handling ingestion, transformation, and storage at scale. In contemporary data engineering, distributed frameworks and hybrid architectures are increasingly adopted to address these demands, yet challenges such as ingestion bottlenecks, uneven resource utilization during transformation, data skew, and the trade off between storage performance, reliability, and cost persist.

This thesis addresses these challenges by designing and implementing an end to end data pipeline that integrates Apache NiFi for high throughput ingestion, Apache Spark for distributed data transformation, and a Lakehouse architecture using Delta Lake for reliable and optimized storage. The New York City taxi trip dataset is used as a large scale real world case study, demonstrating the analytical potential of the proposed solution in domains such as transportation planning and business optimization. Performance is evaluated in terms of ingestion speed, transformation efficiency, and query optimization. The results show that NiFi provides reliable and efficient data flow management, Spark achieves substantial performance gains through distributed execution and partition tuning, and Delta Lake ensures ACID compliant storage while improving query performance. Together, these technologies illustrate how a modern, fault tolerant data pipeline can be effectively constructed, contributing practical insights and best practices for data engineering and smart city analytics.
Kokoelmat
  • Opinnäytetyöt (Avoin kokoelma)

Samankaltainen aineisto

Näytetään aineisto, joilla on samankaltaisia nimekkeitä, tekijöitä tai asiasanoja.

  • Data Strategy Handbook as Guide Towards Data-Driven Organization 

    Piippola, Timo-Joel (2024)
    The need for an organizational data culture is evident in the digital era. More organizations are making data-driven decisions, viewing data as a crucial business asset. This thesis aimed to help a case company enhance its ...
  • Big datan käyttö liiketoiminnan ennustamiseen: tieliikenneonnettomuudet Suomessa 

    Alto, Olga (2019)
    Tämän opinnäytetyön tarkoituksena on selvittää, mitä tietoja voidaan ennustaa suurista tietomääristä. Aineistona on käytetty Suomessa liikennetapaturmia koskevia avoimia lähteitä vuosilta 2015 – 2017. Työssä ennustetaan ...
  • Recognizing the value of data in business operations : Data analytics for business operation 

    Duma, Don (2022)
    The aim of this study was to demonstrate the hidden value of data that can be extracted with few commercial and open-source software tools. Any given business can collect, organize, and extract data for analysis that can ...
Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatKoulutusalatAsiasanatUusimmatKokoelmat

Henkilökunnalle

Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste