Suomenkielisten tuotearvostelujen tunneanalyysi

Toivonen, Huvi

Suomenkielisten tuotearvostelujen tunneanalyysi

Toivonen, Huvi (2025)

Avaa tiedosto

Toivonen_Huvi.pdf (2.153Mt)

Lataukset:

Toivonen, Huvi

2025

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025092625270

Tiivistelmä

Tämän opinnäytetyön tavoitteena oli kehittää ja arvioida koneoppimismalli suomenkielisten tuotearvostelujen automaattiseen tunneanalyysiin. Työn tarkoituksena oli luoda järjestelmä, joka luokittelee tekstimuotoisen asiakaspalautteen sävyn positiiviseksi, negatiiviseksi tai neutraaliksi, jotta suurista datamassoista voitaisiin automaattisesti, helposti ja nopeasti poimia liiketoiminnallisesti arvokasta tietoa esimerkiksi tuotekehityksen ja asiakasymmärryksen parantamiseksi.

Työ toteutettiin konstruktiivisena tutkimuksena, joka eteni vaiheittain. Aluksi rakennettiin 100 manuaalisesti leimatun arvostelun avulla prototyyppi, joka paljasti keskeisen haasteen, eli aineiston voimakkaan epätasapainon positiivisten arvostelujen hyväksi. Tämän jälkeen aineistoa laajennettiin yli 5000 arvosteluun automatisoidulla verkkoharavoinnilla useista suomalaisista verkkokaupoista, kuten Verkkokauppa.comista, Prismasta ja Hobby Hallista.

Koska laaja aineisto oli leimaamatonta, tunnesävyt määriteltiin ohjelmallisesti tuotteiden tähtiarvioiden perusteella (1–2 tähteä = negatiivinen, 3 = neutraali, 4–5 = positiivinen). Kehitystyössä testattiin systemaattisesti eri tekstin esikäsittelymenetelmiä ja vertailtiin klassisia koneoppimismalleja, kuten Logistista regressiota, tukivektorikonetta (SVM) ja Multinomial Naive Bayes -mallia.

Työn keskeisenä tuloksena havaittiin, että aineiston osittainen tasapainottaminen positiivisia arvosteluja vähentämällä tuotti parhaat tulokset. Yllättäen yksinkertaisempi esikäsittely ilman lemmatisointia osoittautui tehokkaimmaksi, todennäköisesti käytetyn työkalun epätarkkuuksien vuoksi. Parhaaksi ja tasapainoisimmaksi malliksi valikoitui Logistinen regressio, joka saavutti 77 % yleistarkkuuden ja 0,70 f1-macro-arvon. Vaikka malli tunnisti positiiviset ja negatiiviset arvostelut hyvin, neutraalin luokan tunnistaminen jäi haastavaksi. Työ osoitti, että klassisilla koneoppimismenetelmillä voidaan rakentaa toimiva järjestelmä suomenkielisten arvostelujen analysointiin, ja korosti datan laadun ja tasapainon keskeistä roolia lopputuloksessa.

Kokoelmat

Opinnäytetyöt