Puuttuvan datan käsitteleminen kehityshankkeessa

Raittinen, Jaakko

Puuttuvan datan käsitteleminen kehityshankkeessa

Raittinen, Jaakko (2021)

Avaa tiedosto

Raittinen_Jaakko.pdf (2.771Mt)

Lataukset:

Raittinen, Jaakko

2021

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2021053112821

Tiivistelmä

Tässä työssä käsitellään kolmen aiheen kokonaisuutta: puuttuva data, aikasarja sekä koneoppiminen. Tutkielma on osa laajaa kehityshanketta, ja se on toteutettu tapaustutkimuksena. Työssä tutkitaan edellä mainittuja aiheita oleellisin osin kehittämishankkeen kannalta. Työn tarkoitus on määrittää tarvittavat reunaehdot, joiden avulla voidaan kehittää kyseiselle kehittämisprojektille menetelmä tai prosessi puuttuvan datan käsittelemiseksi.

Reaalimaailman dataan perustuvissa sovelluksissa esiintyy usein puuttuvaa dataa, ja sen käsittelemiseksi tulee valita oikea menetelmä. Puuttuvuudesta tulee tunnistaa sen mekanismi, määrä ja jakauma. Näiden lisäksi sovelluskohtaiset vaatimukset, kuten aikasarja ja koneoppiminen tulee huomioida.

Opinnäytetyössä käsitellään kukin aihealue yksityiskohtaisemmin. Työssä esitellään varsinainen toteutus, joka on kaksivaiheinen. Ensimmäisessä vaiheessa kehityshankkeen datasta valitaan sopiva tutkimusotos, johon simuloidaan puuttuva data tietyn puuttuvuusmekanismin mukaisesti. Tutkimusotoksia tuotetaan kaikkiaan kolme kappaletta, jotka sisältävät eri määrän puuttuvaa dataa. Toteutusosan toisessa vaiheessa näihin simuloituihin otoksiin sovelletaan erilaisia menetelmiä puuttuvan datan paikkaamiseksi.

Tutkimus tuotti monipuolisia ja mielenkiintoisia tuloksia, jotka saavutettiin valitsemalla kaksi lähestymistapaa varsinaisen imputoinnin toteuttamiseksi. Käytetyt menetelmät perustuvat perinteisiin ja kokeellisiin menetelmiin. Työssä käsiteltävän ongelman vaikeustasoa kuvastaa se, että tulokset eivät ole täysin yksiselitteisiä ja vaativat tapauskohtaista tulkintaa. Tutkielman tulokset osoittivat sen, että yleisesti käytetty keskiarvoimputointi ei ole aina soveltuvin menetelmä. Sen sijaan lähimmän naapurin regressio ja lineaarinen interpolointi tuottivat lupaavia tuloksia. Kokonaisuudessaan työstä saadut tulokset luovat vahvan pohjan varsinaisen prosessin luomiselle sekä tarjoavat hyvät lähtökohdat sen jatkokehittämiselle.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)