Luonnollisen kielen käsittely : semanttisen samankaltaisuuden mittaaminen
Nuutinen, Emil (2020)
Nuutinen, Emil
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020121428012
https://urn.fi/URN:NBN:fi:amk-2020121428012
Tiivistelmä
Opinnäytetyön tavoitteena oli tehdä toimeksiantajalle soveltava tutkimus, jossa tutkittiin kielimallien eroja tarkkuudessa ja käytettävyydessä semanttisen samankaltaisuuden mittaamisessa. Tutkimuksen tuloksia oli tarkoitus hyödyntää tulevia projekteja suunnitellessa.
Opinnäytetyössä tutkittiin kahden eri soveltavan tutkimuksen pohjalta viiden eri kielimallin toimintaa sekä käytettävyyttä semanttisen samankaltaisuuden mittaamisessa. Yhdessä toimeksiantajan kanssa tutkimuksen kohteeksi valittiin TF-IDF, fastText, LASER, Sentence-BERT sekä USE kielimallit.
Ensimmäinen tutkimus tehtiin STS Benchmarkin lausepareilla SemEval-2017 STS tehtävän kriteerein, mutta tutkimuksen tulokset eivät olleet luotettavia. Toiseen tutkimukseen luotiin omat testilausekkeet, joiden tarkoitus oli tuoda esille kielimallien välisiä eroja kielen ymmärtämisessä.
Vaikka USEn DAN-versio osoittautui tämän tutkimuksen testeissä parhaaksi kompromissiksi laskenta-ajan ja tarkkuuden perusteella, niin käytettävissä olevalla koulutusdatalla on kuitenkin paljon suurempi vaikutus kuin valitulla kielimallilla.
Opinnäytetyössä tutkittiin kahden eri soveltavan tutkimuksen pohjalta viiden eri kielimallin toimintaa sekä käytettävyyttä semanttisen samankaltaisuuden mittaamisessa. Yhdessä toimeksiantajan kanssa tutkimuksen kohteeksi valittiin TF-IDF, fastText, LASER, Sentence-BERT sekä USE kielimallit.
Ensimmäinen tutkimus tehtiin STS Benchmarkin lausepareilla SemEval-2017 STS tehtävän kriteerein, mutta tutkimuksen tulokset eivät olleet luotettavia. Toiseen tutkimukseen luotiin omat testilausekkeet, joiden tarkoitus oli tuoda esille kielimallien välisiä eroja kielen ymmärtämisessä.
Vaikka USEn DAN-versio osoittautui tämän tutkimuksen testeissä parhaaksi kompromissiksi laskenta-ajan ja tarkkuuden perusteella, niin käytettävissä olevalla koulutusdatalla on kuitenkin paljon suurempi vaikutus kuin valitulla kielimallilla.