ETL-työkalun pilvimigraatio Microsoft Azure SQL -ympäristöön
Karjalainen, Tuomas (2023)
Karjalainen, Tuomas
2023
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2023053116828
https://urn.fi/URN:NBN:fi:amk-2023053116828
Tiivistelmä
Opinnäytetyön tavoitteena oli tutkia ETL-prosessissa eri lähdedatojen täsmäytykseen ja vertailuun käytettävän työkalun toimivuutta Microsoft Azuren pilvialustalla. Kyseinen työkalu on jo tuotantokäytössä asiakkaan on-premises -ympäristössä, mutta tavoitteena oli selvittää tarvittavat vaiheet, jotta sovellus saataisiin toimimaan tarvittaessa myös pilvialustalla esimerkiksi asiakkaan infrastruktuuristrategian muuttuessa.
Työkalu sisältää myös frontend-puolen eli web-käyttöliittymän, josta työkalua pääasiassa käytetään, mutta viitekehyksen rajaamiseksi tässä työssä käsiteltiin vain sovelluksen backend-puolta, joka muun muassa sisältää eri lähteistä tulevien datasettien täsmäytys- ja vertailulogiikan. Työkalu ei siis pelkästään ole vain ETL-työkalu, vaan se toimii myös data-analyysin työkaluna. Datan laatu, tarkkuus ja yhdenmukaisuus ovat tärkeää viranomaisraportoinnin kannalta, mitä esimerkiksi pankki- ja finanssialalla toimivat yritykset ovat velvollisia tuottamaan.
Työssä kartoitettiin mahdolliset yhteensopivuusongelmat sekä potentiaalien refaktoroinnin tarve ja sen laajuus. Työn teoreettinen viitekehys muodostui ETL-prosessista, pilvipalveluista, niiden vertailusta ja käyttöönotosta. Lisäksi teoriaosuuksiin on tuotu nostoja pankki- ja finanssialan näkökulmista. Opinnäytetyön loppupuolella käytiin tässä käyttötapauksessa suoritetut prosessin vaiheet läpi sekä niiden tulokset. Viimeisenä käsiteltiin läpi vielä työstä saatua palautetta sekä omaa pohdintaa. In this bachelor’s thesis, the steps taken to setup and configure reconciliation application in Microsoft Azure are defined. The application is usually part of the ETL process, and it is a solution for comparing differences in two datasets. Moreover, the application is also a data analytical tool for finding mismatching patterns. The identification of source data is critical to ensure data quality and financial regulatory reporting.
The application was originally designed to be used in on-premises environments, but currently, it is topical to investigate its functionality in a cloud environment, which in this case is Azure. The application consists mainly of SQL-based reconciliation logic (backend) and Python Django-based web-UI (frontend). To limit the scope of this thesis, only backend compatibility in the cloud platform is studied.
In addition, the objective of this thesis is also to detect potential compatibility issues, potential needs for database refactoring, and choose the appropriate cloud service for the application. Finally, the project provides documentation for internal use, which can be assistance in future customer projects.
The theoretical section discusses the reasons for choosing Azure as well as the comparison of the cloud services offered, and the selection of the service used in this project. Furthermore, the principles of the ETL process and the steps of cloud migration are discussed in the theoretical part. Perspectives from banking and the financial field have also been included in the theoretical part. The thesis concludes with a summary of the findings and an evaluation of the results.
Työkalu sisältää myös frontend-puolen eli web-käyttöliittymän, josta työkalua pääasiassa käytetään, mutta viitekehyksen rajaamiseksi tässä työssä käsiteltiin vain sovelluksen backend-puolta, joka muun muassa sisältää eri lähteistä tulevien datasettien täsmäytys- ja vertailulogiikan. Työkalu ei siis pelkästään ole vain ETL-työkalu, vaan se toimii myös data-analyysin työkaluna. Datan laatu, tarkkuus ja yhdenmukaisuus ovat tärkeää viranomaisraportoinnin kannalta, mitä esimerkiksi pankki- ja finanssialalla toimivat yritykset ovat velvollisia tuottamaan.
Työssä kartoitettiin mahdolliset yhteensopivuusongelmat sekä potentiaalien refaktoroinnin tarve ja sen laajuus. Työn teoreettinen viitekehys muodostui ETL-prosessista, pilvipalveluista, niiden vertailusta ja käyttöönotosta. Lisäksi teoriaosuuksiin on tuotu nostoja pankki- ja finanssialan näkökulmista. Opinnäytetyön loppupuolella käytiin tässä käyttötapauksessa suoritetut prosessin vaiheet läpi sekä niiden tulokset. Viimeisenä käsiteltiin läpi vielä työstä saatua palautetta sekä omaa pohdintaa.
The application was originally designed to be used in on-premises environments, but currently, it is topical to investigate its functionality in a cloud environment, which in this case is Azure. The application consists mainly of SQL-based reconciliation logic (backend) and Python Django-based web-UI (frontend). To limit the scope of this thesis, only backend compatibility in the cloud platform is studied.
In addition, the objective of this thesis is also to detect potential compatibility issues, potential needs for database refactoring, and choose the appropriate cloud service for the application. Finally, the project provides documentation for internal use, which can be assistance in future customer projects.
The theoretical section discusses the reasons for choosing Azure as well as the comparison of the cloud services offered, and the selection of the service used in this project. Furthermore, the principles of the ETL process and the steps of cloud migration are discussed in the theoretical part. Perspectives from banking and the financial field have also been included in the theoretical part. The thesis concludes with a summary of the findings and an evaluation of the results.