Konenäkömallien vertailu eri arkkitehtuurien välillä

Seppänen, Veikko

Konenäkömallien vertailu eri arkkitehtuurien välillä

Seppänen, Veikko (2025)

Avaa tiedosto

Seppänen_Veikko.pdf (2.352Mt)

Lataukset:

Rajoitettu käyttöoikeus / Restricted access / Tillgången begränsad

Seppänen, Veikko

2025

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025052817333

Tiivistelmä

Tässä työssä selvitettiin voisiko Transformer-arkkitehtuuriin pohjautuva konenäkömalli korvata perinteisen konvoluutioneuroverkkoon (CNN) pohjautuvan mallin viilutuotannon visuaalisessa laadunvalvonnassa. Lähtökohtana työlle oli Segformer-mallin kehitystutkimus, jossa on saavutettu parempi tarkkuus reaaliaikaisessa videokuvan segmentoinnissa – erityisesti tilanteissa, joissa mallin ei haluta reagoivan liikaa ympäristön vaihteluihin. Tavoitteena oli kouluttaa tarkempi Transformer-malli samalla aineistolla, jolla CNN-malli oli aiemmin koulutettu.

Työssä koulutettiin ja vertailtiin kahta Transformer-pohjaista segmentointimallia, SegFormer ja FeedFormer, samoilla aineistoilla kuin DeepLabv3+. Aineistona käytettiin noin 39 000 kuvaa ja maskia, joissa jokainen pikseli oli luokiteltu kuuteen eri luokkaan. Mallit koulutettiin Docker-konttiin rakennetussa kehitysympäristössä, ja aineisto esikäsiteltiin mmsegmentation-koodipohjan vaatimusten mukaiseksi. Koulutuksessa hyödynnettiin valmiiksi esikoulutettuja ImageNet-, ADE20K- ja Cityscapes-painoja. Laskentatehona toimi kolmen Nvidia RTX 4090 -näytönohjaimen kokoonpano, mikä mahdollisti suuriresoluutioisten kuvien tehokkaan käsittelyn.

Vertailu suoritettiin laskennallisten mittareiden, kuten mIoU:n ja IoU:n, tarkkuuden sekä visuaalisen tarkastelun perusteella. Tulokset osoittivat, että kaikki Transformer-mallit ylittivät DeepLabv3+:n tarkkuuden lähes kaikilla osa-alueilla. Erityisesti FeedFormer-B2 saavutti parhaat tulokset vaikeissakin luokissa. Segmentoinnin tarkkuutta testattiin myös painottamalla luokkia, mutta tämä ei tuottanut toivottua parannusta ja työn aikarajauksen takia sitä ei lähdetty lisää kartoittamaan tähän työhön.

Transformer-pohjaiset mallit osoittautuivat skaalautuviksi ja tehokkaiksi segmentointitehtävissä. Tulosten perusteella voidaan päätellä, että Transformer-arkkitehtuurit tarjoavat uskottavan vaihtoehdon perinteisille CNN-pohjaisille menetelmille teollisessa visuaalisessa laadunvalvonnassa. Tulevassa työssä voitaisiin keskittyä lisäämään aineistoa, kokeilla augmentointistrategioita ja optimoida mallien suoritusaikaa inferenssivaiheessa.

Kokoelmat

Opinnäytetyöt (Käyttörajattu kokoelma)