Automaatio ja tietoturvallisuus tekoälyä hyödyntävässä liiketoimintadatassa
Kuosmanen, Eero (2025)
Kuosmanen, Eero
2025
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025121134910
https://urn.fi/URN:NBN:fi:amk-2025121134910
Tiivistelmä
Tekoäly ja automaatio ovat nousseet ratkaisevaan asemaan nykyaikaisessa liiketoimintadatan käsittelyssä, mikä on luonut tarpeen entistä tehokkaammille, skaalautuvammille ja reaaliaikaisemmille ratkaisuille. Samaan aikaan tiukentunut lainsäädäntö, erityisesti Euroopan unionin yleinen tietosuoja-asetus asettaa organisaatioille ehdottomia vaatimuksia henkilötietojen suojaukselle ja käsittelyn läpinäkyvyydelle. Työn tavoitteena oli analysoida automatisoinnin ja tietoturvallisuuden keskeisiä periaatteita tekoälyä hyödyntävissä dataprosesseissa sekä selvittää, miten myös pienet ja keskisuuret organisaatiot voivat rakentaa kustannustehokkaita ja lainsäädännön mukaisia dataputkia.
Tutkimus toteutettiin kirjallisuuskatsauksen ja teknisen toteutuksen yhdistelmänä. Teoriaosuudessa tarkasteltiin ja arvioitiin alan julkaisuja, standardeja sekä suuryritysten data-arkkitehtuureja, keskittyen dataputkistojen kehitykseen perinteisestä ETL-mallista moderneihin pilvipohjaisiin ratkaisuihin. Käytännön osuudessa rakennettiin Python-ohjelmointikielellä automatisoitu koneoppimisputki, joka hyödynsi avoimen lähdekoodin kirjastoja. Toteutuksessa simuloitiin liiketoimintadataa ja luotiin järjestelmä, joka optimoi itsenäisesti tekoälymallin hyperparametreja ja päivitti ennustemalleja ilman manuaalista ohjausta.
Tulokset osoittivat, että modernit arkkitehtuuriratkaisut ja automaation integrointi dataputkiin tehostivat merkittävästi datan laatua ja käsittelynopeutta. Teknisessä toteutuksessa havaittiin, että avoimen lähdekoodin työkaluilla oli mahdollista rakentaa mukautumiskykyisiä ja itsestään optimoituvia tekoälyjärjestelmiä ilman suuryritysten mittavia resursseja. Johtopäätöksenä todettiin, että tietoturvallisuuden, kuten anonymisointimenetelmien, saumaton yhdistäminen automatisoituun prosessiin on välttämätön edellytys luotettavalle ja eettiselle tekoälyliiketoiminnalle. Artificial intelligence and automation have taken on a decisive role in modern business data processing, creating a need for more efficient, scalable, and real-time solutions. Simultaneously, tightened legislation, specifically the European Union’s General Data Protection Regulation, imposes absolute requirements on organizations regarding the protection of personal data and the transparency of processing. The objective of this thesis was to analyze the key principles of automation and data security in data processes leveraging AI, and to determine how small and medium-sized organizations can build cost-effective data pipelines that comply with legislation.
The study was conducted as a combination of a literature review and a technical implementation. First, industry publications were examined and evaluated, focusing on standards, and the data architectures of large corporations, focusing on the development of data pipelines from the traditional ETL model to modern cloud-based solutions. After that, an automated machine learning pipeline was developed using the Python programming language and open-source libraries. The implementation simulated business data and created a system that independently optimized the hyperparameters of the AI model and updated prediction models without manual guidance.
The results indicated that modern architectural solutions and the integration of automation into data pipelines significantly enhanced data quality and processing speed. In the technical implementation, it was observed that it was possible to build adaptive and self-optimizing AI systems using open-source tools without the massive resources of large enterprises. It was concluded that the seamless integration of data security, such as anonymization methods, into the automated process is a necessary prerequisite for reliable and ethical AI business operations.
Tutkimus toteutettiin kirjallisuuskatsauksen ja teknisen toteutuksen yhdistelmänä. Teoriaosuudessa tarkasteltiin ja arvioitiin alan julkaisuja, standardeja sekä suuryritysten data-arkkitehtuureja, keskittyen dataputkistojen kehitykseen perinteisestä ETL-mallista moderneihin pilvipohjaisiin ratkaisuihin. Käytännön osuudessa rakennettiin Python-ohjelmointikielellä automatisoitu koneoppimisputki, joka hyödynsi avoimen lähdekoodin kirjastoja. Toteutuksessa simuloitiin liiketoimintadataa ja luotiin järjestelmä, joka optimoi itsenäisesti tekoälymallin hyperparametreja ja päivitti ennustemalleja ilman manuaalista ohjausta.
Tulokset osoittivat, että modernit arkkitehtuuriratkaisut ja automaation integrointi dataputkiin tehostivat merkittävästi datan laatua ja käsittelynopeutta. Teknisessä toteutuksessa havaittiin, että avoimen lähdekoodin työkaluilla oli mahdollista rakentaa mukautumiskykyisiä ja itsestään optimoituvia tekoälyjärjestelmiä ilman suuryritysten mittavia resursseja. Johtopäätöksenä todettiin, että tietoturvallisuuden, kuten anonymisointimenetelmien, saumaton yhdistäminen automatisoituun prosessiin on välttämätön edellytys luotettavalle ja eettiselle tekoälyliiketoiminnalle.
The study was conducted as a combination of a literature review and a technical implementation. First, industry publications were examined and evaluated, focusing on standards, and the data architectures of large corporations, focusing on the development of data pipelines from the traditional ETL model to modern cloud-based solutions. After that, an automated machine learning pipeline was developed using the Python programming language and open-source libraries. The implementation simulated business data and created a system that independently optimized the hyperparameters of the AI model and updated prediction models without manual guidance.
The results indicated that modern architectural solutions and the integration of automation into data pipelines significantly enhanced data quality and processing speed. In the technical implementation, it was observed that it was possible to build adaptive and self-optimizing AI systems using open-source tools without the massive resources of large enterprises. It was concluded that the seamless integration of data security, such as anonymization methods, into the automated process is a necessary prerequisite for reliable and ethical AI business operations.
