Luonnollisen kielen käsittely : semanttisen samankaltaisuuden mittaaminen

Nuutinen, Emil

Luonnollisen kielen käsittely : semanttisen samankaltaisuuden mittaaminen

Nuutinen, Emil (2020)

Avaa tiedosto

opinnäytetyö_nuutinen.pdf (954.1Kt)

Lataukset:

Nuutinen, Emil

2020

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020121428012

Tiivistelmä

Opinnäytetyön tavoitteena oli tehdä toimeksiantajalle soveltava tutkimus, jossa tutkittiin kielimallien eroja tarkkuudessa ja käytettävyydessä semanttisen samankaltaisuuden mittaamisessa. Tutkimuksen tuloksia oli tarkoitus hyödyntää tulevia projekteja suunnitellessa.

Opinnäytetyössä tutkittiin kahden eri soveltavan tutkimuksen pohjalta viiden eri kielimallin toimintaa sekä käytettävyyttä semanttisen samankaltaisuuden mittaamisessa. Yhdessä toimeksiantajan kanssa tutkimuksen kohteeksi valittiin TF-IDF, fastText, LASER, Sentence-BERT sekä USE kielimallit.

Ensimmäinen tutkimus tehtiin STS Benchmarkin lausepareilla SemEval-2017 STS tehtävän kriteerein, mutta tutkimuksen tulokset eivät olleet luotettavia. Toiseen tutkimukseen luotiin omat testilausekkeet, joiden tarkoitus oli tuoda esille kielimallien välisiä eroja kielen ymmärtämisessä.

Vaikka USEn DAN-versio osoittautui tämän tutkimuksen testeissä parhaaksi kompromissiksi laskenta-ajan ja tarkkuuden perusteella, niin käytettävissä olevalla koulutusdatalla on kuitenkin paljon suurempi vaikutus kuin valitulla kielimallilla.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)