Koneoppiminen uutisvirran suodatuksessa
Ailio, Henri (2020)
Ailio, Henri
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020120426193
https://urn.fi/URN:NBN:fi:amk-2020120426193
Tiivistelmä
Opinnäytetyössä tarkastellaan miten koneoppimista voidaan hyödyntää uutisten luokittelussa erilaisiin kategorioihin ja kuinka suuria aineistoja tarvitaan hyvin toimivan luokittelijan opettamiseen. Opinnäytetyö jakautuu kahteen osaan, joista ensimmäisessä käsitellään tekstin luokitteluun liittyvää teoriaa. Toisessa osassa esitellään käytetyt teknologiat ja saadut tulokset.
Opinnäytetyössä käytettiin support vector classifier -algoritmia (SVC) ja bi-directional long short-term memory -tyyppistä neuroverkkoa (bi-LSTM) luokittelemaan uutisia. Molempia luokittelijoita testattiin kahdella eri aineistolla. Parhaimmillaan päästiin yli 97 % tarkkuuteen SVC-luokittelijalla. Johtopäätöksenä voidaan todeta, että neuroverkot vaativat enemmän koulutusmateriaalia toimiakseen hyvin kuin SVC-algoritmi. Tulokset eivät olleet vastaavat molemmissa aineistoissa, vaan käytetty aineisto vaikutti tuloksiin. Suomenkielisessä aineistossa bi-LSTM saavutti suuremman tarkkuuden, kuin SVC.
Opinnäytetyössä käytettiin support vector classifier -algoritmia (SVC) ja bi-directional long short-term memory -tyyppistä neuroverkkoa (bi-LSTM) luokittelemaan uutisia. Molempia luokittelijoita testattiin kahdella eri aineistolla. Parhaimmillaan päästiin yli 97 % tarkkuuteen SVC-luokittelijalla. Johtopäätöksenä voidaan todeta, että neuroverkot vaativat enemmän koulutusmateriaalia toimiakseen hyvin kuin SVC-algoritmi. Tulokset eivät olleet vastaavat molemmissa aineistoissa, vaan käytetty aineisto vaikutti tuloksiin. Suomenkielisessä aineistossa bi-LSTM saavutti suuremman tarkkuuden, kuin SVC.
