Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomi
  • Svenska
  • English
  • Kirjaudu
Hakuohjeet
JavaScript is disabled for your browser. Some features of this site may not work without it.
Näytä viite 
  •   Ammattikorkeakoulut
  • LAB-ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite
  •   Ammattikorkeakoulut
  • LAB-ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite

NLP vuonna 2021, AWS ja tekstin luokittelu

Jukakoski, Miika (2021)

 
Avaa tiedosto
Miika_Jukakoski_NLP_vuonna_2021_AWS_ja_tekstin_luokittelu.pdf (7.517Mt)
Lataukset: 


Jukakoski, Miika
2021
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202105128462
Tiivistelmä
Tässä työssä tutkittiin luonnollisen kielen käsittelyn (engl. natural language processing) teknologista kypsyyttä vuonna 2021. Tarkempi tutkimuksen kohde oli suomen kieli ja NLP-tehtävistä tekstiaineiston luokittelu. Työssä tutustuttiin uusimpiin arkkitehtuureihin, joilla NLP-tehtävien suorituskykyä on saatu nostettua suurin harppauksin viime vuosina. Tehokkaat arkkitehtuurit ovat perustuneet poikkeuksetta neuroverkkoihin, mutta vuonna 2017 julkaistu Attention-malli on mahdollistanut erityisen suuren edistyksen NLP-tehtävissä.

Samaan aikaa neuroverkkojen kehityksen kanssa on myös teknologia kehittynyt. Kehitys on mahdollistanut mallien nopeamman koulutuksen, joka on edelleen nopeuttanut neuroverkkojen kehitystä. Suorituskykyiset laitteistot ovat jo kaikkien saatavilla, joilla voi kouluttaa malleja tai suorittaa päättelytehtäviä. Laitteistoa ei tarvitse enää itse omistaa, vaan markkinoilla on useita toimijoita, joilta on mahdollista vuokrata laskentakapasiteettia niin koulutukseen kuin hostaamiseenkin. Palveluntarjoajista tässä työssä keskityttiin Amazon Web Services-yrityksen palvelutarjontaan. AWS on tällä hetkellä markkinajohtaja pilvipalveluissa, joten heidän tarjontansa myös NLP-palveluissa on kattava.

NLP-mallit ovat tyypillisesti hyvin kookkaita, joten mallin kouluttaminen ja hostaaminen vaativat tehokkaan GPU:n ja riittävästi käyttömuistia. Suuri tehovaatimus varsinkin hostauksessa tarkoittaa sitä, että mallia varten on oltava jatkuvasti päällä oleva palvelin. Tässä työssä tutkittiin päättelytehtävien ajamista Serverless-ympäristössä, jolloin satunnaisella käytöllä olevan mallin kustannukset olisi mahdollista pitää kohtuullisina. Työssä toteutettiin Serverless-arkkitehtuurilla suomen kielen luokittelija, joka osaa luokitella uutisaineistoa kymmeneen eri luokkaan.
Kokoelmat
  • Opinnäytetyöt (Avoin kokoelma)
Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatKoulutusalatAsiasanatUusimmatKokoelmat

Henkilökunnalle

Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste