NLP vuonna 2021, AWS ja tekstin luokittelu
Jukakoski, Miika (2021)
Jukakoski, Miika
2021
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202105128462
https://urn.fi/URN:NBN:fi:amk-202105128462
Tiivistelmä
Tässä työssä tutkittiin luonnollisen kielen käsittelyn (engl. natural language processing) teknologista kypsyyttä vuonna 2021. Tarkempi tutkimuksen kohde oli suomen kieli ja NLP-tehtävistä tekstiaineiston luokittelu. Työssä tutustuttiin uusimpiin arkkitehtuureihin, joilla NLP-tehtävien suorituskykyä on saatu nostettua suurin harppauksin viime vuosina. Tehokkaat arkkitehtuurit ovat perustuneet poikkeuksetta neuroverkkoihin, mutta vuonna 2017 julkaistu Attention-malli on mahdollistanut erityisen suuren edistyksen NLP-tehtävissä.
Samaan aikaa neuroverkkojen kehityksen kanssa on myös teknologia kehittynyt. Kehitys on mahdollistanut mallien nopeamman koulutuksen, joka on edelleen nopeuttanut neuroverkkojen kehitystä. Suorituskykyiset laitteistot ovat jo kaikkien saatavilla, joilla voi kouluttaa malleja tai suorittaa päättelytehtäviä. Laitteistoa ei tarvitse enää itse omistaa, vaan markkinoilla on useita toimijoita, joilta on mahdollista vuokrata laskentakapasiteettia niin koulutukseen kuin hostaamiseenkin. Palveluntarjoajista tässä työssä keskityttiin Amazon Web Services-yrityksen palvelutarjontaan. AWS on tällä hetkellä markkinajohtaja pilvipalveluissa, joten heidän tarjontansa myös NLP-palveluissa on kattava.
NLP-mallit ovat tyypillisesti hyvin kookkaita, joten mallin kouluttaminen ja hostaaminen vaativat tehokkaan GPU:n ja riittävästi käyttömuistia. Suuri tehovaatimus varsinkin hostauksessa tarkoittaa sitä, että mallia varten on oltava jatkuvasti päällä oleva palvelin. Tässä työssä tutkittiin päättelytehtävien ajamista Serverless-ympäristössä, jolloin satunnaisella käytöllä olevan mallin kustannukset olisi mahdollista pitää kohtuullisina. Työssä toteutettiin Serverless-arkkitehtuurilla suomen kielen luokittelija, joka osaa luokitella uutisaineistoa kymmeneen eri luokkaan.
Samaan aikaa neuroverkkojen kehityksen kanssa on myös teknologia kehittynyt. Kehitys on mahdollistanut mallien nopeamman koulutuksen, joka on edelleen nopeuttanut neuroverkkojen kehitystä. Suorituskykyiset laitteistot ovat jo kaikkien saatavilla, joilla voi kouluttaa malleja tai suorittaa päättelytehtäviä. Laitteistoa ei tarvitse enää itse omistaa, vaan markkinoilla on useita toimijoita, joilta on mahdollista vuokrata laskentakapasiteettia niin koulutukseen kuin hostaamiseenkin. Palveluntarjoajista tässä työssä keskityttiin Amazon Web Services-yrityksen palvelutarjontaan. AWS on tällä hetkellä markkinajohtaja pilvipalveluissa, joten heidän tarjontansa myös NLP-palveluissa on kattava.
NLP-mallit ovat tyypillisesti hyvin kookkaita, joten mallin kouluttaminen ja hostaaminen vaativat tehokkaan GPU:n ja riittävästi käyttömuistia. Suuri tehovaatimus varsinkin hostauksessa tarkoittaa sitä, että mallia varten on oltava jatkuvasti päällä oleva palvelin. Tässä työssä tutkittiin päättelytehtävien ajamista Serverless-ympäristössä, jolloin satunnaisella käytöllä olevan mallin kustannukset olisi mahdollista pitää kohtuullisina. Työssä toteutettiin Serverless-arkkitehtuurilla suomen kielen luokittelija, joka osaa luokitella uutisaineistoa kymmeneen eri luokkaan.