Synteettisen taulukkodatan generointi GAN-verkolla
Paakki, Iikka-Matti (2020)
Paakki, Iikka-Matti
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202001131236
https://urn.fi/URN:NBN:fi:amk-202001131236
Tiivistelmä
Opinnäytetyön tavoitteena oli generoida uutta synteettistä taulukkomuotoista dataa alkupe-räisen datan pohjalta. Generoidun synteettisen data tulisi olla tilastollisesti samanlainen kuin alkuperäinen.
Usein dataa ei voida käyttää yksityisyyden suojaamisen takia (esim. terveydenhuolto data). Generoimalla synteettistä dataa pyritään välttämään yksityisyyden suojan rikkomista. Uutta generoitua dataa voidaan käyttää mm. data-analytiikassa, koneoppimisessa ja sovelluskehi-tyksessä ja sitä voidaan jakaa muille osapuolille ilman pelkoa yksityisyyden suojan rikkomises-ta.
Opinnäytetyön teoriaosuudessa käydään läpi tekoälyä, koneoppimista ja syväoppimista. Lisäksi käydään läpi tarkemmin neuroverkon (syväoppimisen) rakennetta ja sen keskeiset toiminnalliset ominaisuudet. Lopuksi perehdytään GAN-verkon toiminnallisuuksiin sekä sen vahvuuksiin ja heikkouksiin.
Opinnäytetyön toteutusosiossa käydään läpi työn keskeiset käytännön vaiheet. Tarkemmin tarkastellaan erilaisen datan generoinnissa käytettävää GAN-verkkoa ja sen rakennetta. Lo-puksi käydään läpi metodit, joiden avulla vertaillaan alkuperäistä sekä generoitua dataa kes-kenään.
GAN-verkon todettiin olevan toimiva ratkaisu homogeenisen numeerisen ja kategorisen da-tan generoinnissa. Generoitu data oli hyvin samankaltaista kuin alkuperäinen työssä käytetty-jen vertailu metodien perusteella ja generoitu data voisi korvata alkuperäisen datan.
Usein dataa ei voida käyttää yksityisyyden suojaamisen takia (esim. terveydenhuolto data). Generoimalla synteettistä dataa pyritään välttämään yksityisyyden suojan rikkomista. Uutta generoitua dataa voidaan käyttää mm. data-analytiikassa, koneoppimisessa ja sovelluskehi-tyksessä ja sitä voidaan jakaa muille osapuolille ilman pelkoa yksityisyyden suojan rikkomises-ta.
Opinnäytetyön teoriaosuudessa käydään läpi tekoälyä, koneoppimista ja syväoppimista. Lisäksi käydään läpi tarkemmin neuroverkon (syväoppimisen) rakennetta ja sen keskeiset toiminnalliset ominaisuudet. Lopuksi perehdytään GAN-verkon toiminnallisuuksiin sekä sen vahvuuksiin ja heikkouksiin.
Opinnäytetyön toteutusosiossa käydään läpi työn keskeiset käytännön vaiheet. Tarkemmin tarkastellaan erilaisen datan generoinnissa käytettävää GAN-verkkoa ja sen rakennetta. Lo-puksi käydään läpi metodit, joiden avulla vertaillaan alkuperäistä sekä generoitua dataa kes-kenään.
GAN-verkon todettiin olevan toimiva ratkaisu homogeenisen numeerisen ja kategorisen da-tan generoinnissa. Generoitu data oli hyvin samankaltaista kuin alkuperäinen työssä käytetty-jen vertailu metodien perusteella ja generoitu data voisi korvata alkuperäisen datan.