Suomenkielisten tuotearvostelujen tunneanalyysi
Toivonen, Huvi (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025092625270
https://urn.fi/URN:NBN:fi:amk-2025092625270
Tiivistelmä
Tämän opinnäytetyön tavoitteena oli kehittää ja arvioida koneoppimismalli suomenkielisten tuotearvostelujen automaattiseen tunneanalyysiin. Työn tarkoituksena oli luoda järjestelmä, joka luokittelee tekstimuotoisen asiakaspalautteen sävyn positiiviseksi, negatiiviseksi tai neutraaliksi, jotta suurista datamassoista voitaisiin automaattisesti, helposti ja nopeasti poimia liiketoiminnallisesti arvokasta tietoa esimerkiksi tuotekehityksen ja asiakasymmärryksen parantamiseksi.
Työ toteutettiin konstruktiivisena tutkimuksena, joka eteni vaiheittain. Aluksi rakennettiin 100 manuaalisesti leimatun arvostelun avulla prototyyppi, joka paljasti keskeisen haasteen, eli aineiston voimakkaan epätasapainon positiivisten arvostelujen hyväksi. Tämän jälkeen aineistoa laajennettiin yli 5000 arvosteluun automatisoidulla verkkoharavoinnilla useista suomalaisista verkkokaupoista, kuten Verkkokauppa.comista, Prismasta ja Hobby Hallista.
Koska laaja aineisto oli leimaamatonta, tunnesävyt määriteltiin ohjelmallisesti tuotteiden tähtiarvioiden perusteella (1–2 tähteä = negatiivinen, 3 = neutraali, 4–5 = positiivinen). Kehitystyössä testattiin systemaattisesti eri tekstin esikäsittelymenetelmiä ja vertailtiin klassisia koneoppimismalleja, kuten Logistista regressiota, tukivektorikonetta (SVM) ja Multinomial Naive Bayes -mallia.
Työn keskeisenä tuloksena havaittiin, että aineiston osittainen tasapainottaminen positiivisia arvosteluja vähentämällä tuotti parhaat tulokset. Yllättäen yksinkertaisempi esikäsittely ilman lemmatisointia osoittautui tehokkaimmaksi, todennäköisesti käytetyn työkalun epätarkkuuksien vuoksi. Parhaaksi ja tasapainoisimmaksi malliksi valikoitui Logistinen regressio, joka saavutti 77 % yleistarkkuuden ja 0,70 f1-macro-arvon. Vaikka malli tunnisti positiiviset ja negatiiviset arvostelut hyvin, neutraalin luokan tunnistaminen jäi haastavaksi. Työ osoitti, että klassisilla koneoppimismenetelmillä voidaan rakentaa toimiva järjestelmä suomenkielisten arvostelujen analysointiin, ja korosti datan laadun ja tasapainon keskeistä roolia lopputuloksessa.
Työ toteutettiin konstruktiivisena tutkimuksena, joka eteni vaiheittain. Aluksi rakennettiin 100 manuaalisesti leimatun arvostelun avulla prototyyppi, joka paljasti keskeisen haasteen, eli aineiston voimakkaan epätasapainon positiivisten arvostelujen hyväksi. Tämän jälkeen aineistoa laajennettiin yli 5000 arvosteluun automatisoidulla verkkoharavoinnilla useista suomalaisista verkkokaupoista, kuten Verkkokauppa.comista, Prismasta ja Hobby Hallista.
Koska laaja aineisto oli leimaamatonta, tunnesävyt määriteltiin ohjelmallisesti tuotteiden tähtiarvioiden perusteella (1–2 tähteä = negatiivinen, 3 = neutraali, 4–5 = positiivinen). Kehitystyössä testattiin systemaattisesti eri tekstin esikäsittelymenetelmiä ja vertailtiin klassisia koneoppimismalleja, kuten Logistista regressiota, tukivektorikonetta (SVM) ja Multinomial Naive Bayes -mallia.
Työn keskeisenä tuloksena havaittiin, että aineiston osittainen tasapainottaminen positiivisia arvosteluja vähentämällä tuotti parhaat tulokset. Yllättäen yksinkertaisempi esikäsittely ilman lemmatisointia osoittautui tehokkaimmaksi, todennäköisesti käytetyn työkalun epätarkkuuksien vuoksi. Parhaaksi ja tasapainoisimmaksi malliksi valikoitui Logistinen regressio, joka saavutti 77 % yleistarkkuuden ja 0,70 f1-macro-arvon. Vaikka malli tunnisti positiiviset ja negatiiviset arvostelut hyvin, neutraalin luokan tunnistaminen jäi haastavaksi. Työ osoitti, että klassisilla koneoppimismenetelmillä voidaan rakentaa toimiva järjestelmä suomenkielisten arvostelujen analysointiin, ja korosti datan laadun ja tasapainon keskeistä roolia lopputuloksessa.
