Transformer-mallit, konekääntäminen ja tekstin tuottaminen
Tuokko, Ilari (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025121034267
https://urn.fi/URN:NBN:fi:amk-2025121034267
Tiivistelmä
Viime vuosina yhteiskunnassa on tapahtunut suuria muutoksia, koska AI on kehittynyt ja yleistynyt hurjaa vauhtia. Suuret tietomallit ovat mullistaneet koulutusta, koska ne luovat sujuvaa tekstiä monilla eri kielillä ja toimivat tehokkaina hakukoneina. Erinäiset kuvia luovat mallit vievät artisteilta asiakkaita, koska asiakas voi itsenäisesti ja ilmaiseksi tehdä haluamansa kuvan. Joissain uusissa 4k-elokuvajulkaisuissa on käytetty AI:ta resoluution parantamiseen. Waymon robottiautot on rakennettu käyttäen Googlen Gemini AI:ta. Nämä kaikki käyttötarkoitukset, kuten lukemattomat muutkin, on rakennettu käyttäen transformer nimisiä malleja. Tässä opinnäytetyössä on perehdytty transformer-malleihin ja niiden toimintaan.
Teoriaosuudessa käydään lävitse transformer-mallien toiminta, keskittyen Googlen julkaisemaan alkuperäiseen enkooderi-dekooderi malliin. Tämä antaa laajan tietopohjan, joka auttaa ymmärtämään myös muita transformer-malleja. Tämän jälkeen käydään lävitse OpenAI:n GPT-mallit. Nämä mallit käyttävät ainoastaan dekooderia, mutta eivät juurikaan muokkaa sitä. Täten GPT-mallejen kohdalla on keskitytty enemmän niiden kouluttamiseen. Eettisiä asioita ja laitevaatimuksia on myös tuotu hieman esiin. Toiminallisessa osuudessa koulutetaan omat versiot enkooderi-dekooderi mallista sekä GPT-malli.
Työn tuloksena huomattiin mallien heikkouksia ja vahvuuksia, sekä, kuinka yksinkertaisia mallit loppujen lopuksi ovat. Mallin arkkitehtuuri näyttää aluksi vaikealle, mutta oikeasti siellä on vain viisi eri toimintoa, joita toistetaan. Mallit tosin tarvitsevat erittäin paljon dataa, sekä laskentatehoa, jotta niistä saadaan tehokkaita ja hyvin toimivia. GPT-mallit myös koulutetaan useamman kerran, joka on monimutkainen ja aikaa vievä prosessi. Julkiseen käyttöön tarkoitettujen suurien tietomallien kohdalla pitää myös ottaa huomioon, että malli tietää ja osaa monia haitallisia asioita, mutta se ei saa niitä käyttäjille kertoa tai opettaa.
Teoriaosuudessa käydään lävitse transformer-mallien toiminta, keskittyen Googlen julkaisemaan alkuperäiseen enkooderi-dekooderi malliin. Tämä antaa laajan tietopohjan, joka auttaa ymmärtämään myös muita transformer-malleja. Tämän jälkeen käydään lävitse OpenAI:n GPT-mallit. Nämä mallit käyttävät ainoastaan dekooderia, mutta eivät juurikaan muokkaa sitä. Täten GPT-mallejen kohdalla on keskitytty enemmän niiden kouluttamiseen. Eettisiä asioita ja laitevaatimuksia on myös tuotu hieman esiin. Toiminallisessa osuudessa koulutetaan omat versiot enkooderi-dekooderi mallista sekä GPT-malli.
Työn tuloksena huomattiin mallien heikkouksia ja vahvuuksia, sekä, kuinka yksinkertaisia mallit loppujen lopuksi ovat. Mallin arkkitehtuuri näyttää aluksi vaikealle, mutta oikeasti siellä on vain viisi eri toimintoa, joita toistetaan. Mallit tosin tarvitsevat erittäin paljon dataa, sekä laskentatehoa, jotta niistä saadaan tehokkaita ja hyvin toimivia. GPT-mallit myös koulutetaan useamman kerran, joka on monimutkainen ja aikaa vievä prosessi. Julkiseen käyttöön tarkoitettujen suurien tietomallien kohdalla pitää myös ottaa huomioon, että malli tietää ja osaa monia haitallisia asioita, mutta se ei saa niitä käyttäjille kertoa tai opettaa.
