Puuttuvan datan käsitteleminen kehityshankkeessa
Raittinen, Jaakko (2021)
Raittinen, Jaakko
2021
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2021053112821
https://urn.fi/URN:NBN:fi:amk-2021053112821
Tiivistelmä
Tässä työssä käsitellään kolmen aiheen kokonaisuutta: puuttuva data, aikasarja sekä koneoppiminen. Tutkielma on osa laajaa kehityshanketta, ja se on toteutettu tapaustutkimuksena. Työssä tutkitaan edellä mainittuja aiheita oleellisin osin kehittämishankkeen kannalta. Työn tarkoitus on määrittää tarvittavat reunaehdot, joiden avulla voidaan kehittää kyseiselle kehittämisprojektille menetelmä tai prosessi puuttuvan datan käsittelemiseksi.
Reaalimaailman dataan perustuvissa sovelluksissa esiintyy usein puuttuvaa dataa, ja sen käsittelemiseksi tulee valita oikea menetelmä. Puuttuvuudesta tulee tunnistaa sen mekanismi, määrä ja jakauma. Näiden lisäksi sovelluskohtaiset vaatimukset, kuten aikasarja ja koneoppiminen tulee huomioida.
Opinnäytetyössä käsitellään kukin aihealue yksityiskohtaisemmin. Työssä esitellään varsinainen toteutus, joka on kaksivaiheinen. Ensimmäisessä vaiheessa kehityshankkeen datasta valitaan sopiva tutkimusotos, johon simuloidaan puuttuva data tietyn puuttuvuusmekanismin mukaisesti. Tutkimusotoksia tuotetaan kaikkiaan kolme kappaletta, jotka sisältävät eri määrän puuttuvaa dataa. Toteutusosan toisessa vaiheessa näihin simuloituihin otoksiin sovelletaan erilaisia menetelmiä puuttuvan datan paikkaamiseksi.
Tutkimus tuotti monipuolisia ja mielenkiintoisia tuloksia, jotka saavutettiin valitsemalla kaksi lähestymistapaa varsinaisen imputoinnin toteuttamiseksi. Käytetyt menetelmät perustuvat perinteisiin ja kokeellisiin menetelmiin. Työssä käsiteltävän ongelman vaikeustasoa kuvastaa se, että tulokset eivät ole täysin yksiselitteisiä ja vaativat tapauskohtaista tulkintaa. Tutkielman tulokset osoittivat sen, että yleisesti käytetty keskiarvoimputointi ei ole aina soveltuvin menetelmä. Sen sijaan lähimmän naapurin regressio ja lineaarinen interpolointi tuottivat lupaavia tuloksia. Kokonaisuudessaan työstä saadut tulokset luovat vahvan pohjan varsinaisen prosessin luomiselle sekä tarjoavat hyvät lähtökohdat sen jatkokehittämiselle.
Reaalimaailman dataan perustuvissa sovelluksissa esiintyy usein puuttuvaa dataa, ja sen käsittelemiseksi tulee valita oikea menetelmä. Puuttuvuudesta tulee tunnistaa sen mekanismi, määrä ja jakauma. Näiden lisäksi sovelluskohtaiset vaatimukset, kuten aikasarja ja koneoppiminen tulee huomioida.
Opinnäytetyössä käsitellään kukin aihealue yksityiskohtaisemmin. Työssä esitellään varsinainen toteutus, joka on kaksivaiheinen. Ensimmäisessä vaiheessa kehityshankkeen datasta valitaan sopiva tutkimusotos, johon simuloidaan puuttuva data tietyn puuttuvuusmekanismin mukaisesti. Tutkimusotoksia tuotetaan kaikkiaan kolme kappaletta, jotka sisältävät eri määrän puuttuvaa dataa. Toteutusosan toisessa vaiheessa näihin simuloituihin otoksiin sovelletaan erilaisia menetelmiä puuttuvan datan paikkaamiseksi.
Tutkimus tuotti monipuolisia ja mielenkiintoisia tuloksia, jotka saavutettiin valitsemalla kaksi lähestymistapaa varsinaisen imputoinnin toteuttamiseksi. Käytetyt menetelmät perustuvat perinteisiin ja kokeellisiin menetelmiin. Työssä käsiteltävän ongelman vaikeustasoa kuvastaa se, että tulokset eivät ole täysin yksiselitteisiä ja vaativat tapauskohtaista tulkintaa. Tutkielman tulokset osoittivat sen, että yleisesti käytetty keskiarvoimputointi ei ole aina soveltuvin menetelmä. Sen sijaan lähimmän naapurin regressio ja lineaarinen interpolointi tuottivat lupaavia tuloksia. Kokonaisuudessaan työstä saadut tulokset luovat vahvan pohjan varsinaisen prosessin luomiselle sekä tarjoavat hyvät lähtökohdat sen jatkokehittämiselle.