NLP vuonna 2021, AWS ja tekstin luokittelu

Jukakoski, Miika

NLP vuonna 2021, AWS ja tekstin luokittelu

Jukakoski, Miika (2021)

Avaa tiedosto

Miika_Jukakoski_NLP_vuonna_2021_AWS_ja_tekstin_luokittelu.pdf (7.517Mt)

Lataukset:

Jukakoski, Miika

2021

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202105128462

Tiivistelmä

Tässä työssä tutkittiin luonnollisen kielen käsittelyn (engl. natural language processing) teknologista kypsyyttä vuonna 2021. Tarkempi tutkimuksen kohde oli suomen kieli ja NLP-tehtävistä tekstiaineiston luokittelu. Työssä tutustuttiin uusimpiin arkkitehtuureihin, joilla NLP-tehtävien suorituskykyä on saatu nostettua suurin harppauksin viime vuosina. Tehokkaat arkkitehtuurit ovat perustuneet poikkeuksetta neuroverkkoihin, mutta vuonna 2017 julkaistu Attention-malli on mahdollistanut erityisen suuren edistyksen NLP-tehtävissä.

Samaan aikaa neuroverkkojen kehityksen kanssa on myös teknologia kehittynyt. Kehitys on mahdollistanut mallien nopeamman koulutuksen, joka on edelleen nopeuttanut neuroverkkojen kehitystä. Suorituskykyiset laitteistot ovat jo kaikkien saatavilla, joilla voi kouluttaa malleja tai suorittaa päättelytehtäviä. Laitteistoa ei tarvitse enää itse omistaa, vaan markkinoilla on useita toimijoita, joilta on mahdollista vuokrata laskentakapasiteettia niin koulutukseen kuin hostaamiseenkin. Palveluntarjoajista tässä työssä keskityttiin Amazon Web Services-yrityksen palvelutarjontaan. AWS on tällä hetkellä markkinajohtaja pilvipalveluissa, joten heidän tarjontansa myös NLP-palveluissa on kattava.

NLP-mallit ovat tyypillisesti hyvin kookkaita, joten mallin kouluttaminen ja hostaaminen vaativat tehokkaan GPU:n ja riittävästi käyttömuistia. Suuri tehovaatimus varsinkin hostauksessa tarkoittaa sitä, että mallia varten on oltava jatkuvasti päällä oleva palvelin. Tässä työssä tutkittiin päättelytehtävien ajamista Serverless-ympäristössä, jolloin satunnaisella käytöllä olevan mallin kustannukset olisi mahdollista pitää kohtuullisina. Työssä toteutettiin Serverless-arkkitehtuurilla suomen kielen luokittelija, joka osaa luokitella uutisaineistoa kymmeneen eri luokkaan.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)