Konenäkömallien vertailu eri arkkitehtuurien välillä
Seppänen, Veikko (2025)
Seppänen, Veikko
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025052817333
https://urn.fi/URN:NBN:fi:amk-2025052817333
Tiivistelmä
Tässä työssä selvitettiin voisiko Transformer-arkkitehtuuriin pohjautuva konenäkömalli korvata perinteisen konvoluutioneuroverkkoon (CNN) pohjautuvan mallin viilutuotannon visuaalisessa laadunvalvonnassa. Lähtökohtana työlle oli Segformer-mallin kehitystutkimus, jossa on saavutettu parempi tarkkuus reaaliaikaisessa videokuvan segmentoinnissa – erityisesti tilanteissa, joissa mallin ei haluta reagoivan liikaa ympäristön vaihteluihin. Tavoitteena oli kouluttaa tarkempi Transformer-malli samalla aineistolla, jolla CNN-malli oli aiemmin koulutettu.
Työssä koulutettiin ja vertailtiin kahta Transformer-pohjaista segmentointimallia, SegFormer ja FeedFormer, samoilla aineistoilla kuin DeepLabv3+. Aineistona käytettiin noin 39 000 kuvaa ja maskia, joissa jokainen pikseli oli luokiteltu kuuteen eri luokkaan. Mallit koulutettiin Docker-konttiin rakennetussa kehitysympäristössä, ja aineisto esikäsiteltiin mmsegmentation-koodipohjan vaatimusten mukaiseksi. Koulutuksessa hyödynnettiin valmiiksi esikoulutettuja ImageNet-, ADE20K- ja Cityscapes-painoja. Laskentatehona toimi kolmen Nvidia RTX 4090 -näytönohjaimen kokoonpano, mikä mahdollisti suuriresoluutioisten kuvien tehokkaan käsittelyn.
Vertailu suoritettiin laskennallisten mittareiden, kuten mIoU:n ja IoU:n, tarkkuuden sekä visuaalisen tarkastelun perusteella. Tulokset osoittivat, että kaikki Transformer-mallit ylittivät DeepLabv3+:n tarkkuuden lähes kaikilla osa-alueilla. Erityisesti FeedFormer-B2 saavutti parhaat tulokset vaikeissakin luokissa. Segmentoinnin tarkkuutta testattiin myös painottamalla luokkia, mutta tämä ei tuottanut toivottua parannusta ja työn aikarajauksen takia sitä ei lähdetty lisää kartoittamaan tähän työhön.
Transformer-pohjaiset mallit osoittautuivat skaalautuviksi ja tehokkaiksi segmentointitehtävissä. Tulosten perusteella voidaan päätellä, että Transformer-arkkitehtuurit tarjoavat uskottavan vaihtoehdon perinteisille CNN-pohjaisille menetelmille teollisessa visuaalisessa laadunvalvonnassa. Tulevassa työssä voitaisiin keskittyä lisäämään aineistoa, kokeilla augmentointistrategioita ja optimoida mallien suoritusaikaa inferenssivaiheessa.
Työssä koulutettiin ja vertailtiin kahta Transformer-pohjaista segmentointimallia, SegFormer ja FeedFormer, samoilla aineistoilla kuin DeepLabv3+. Aineistona käytettiin noin 39 000 kuvaa ja maskia, joissa jokainen pikseli oli luokiteltu kuuteen eri luokkaan. Mallit koulutettiin Docker-konttiin rakennetussa kehitysympäristössä, ja aineisto esikäsiteltiin mmsegmentation-koodipohjan vaatimusten mukaiseksi. Koulutuksessa hyödynnettiin valmiiksi esikoulutettuja ImageNet-, ADE20K- ja Cityscapes-painoja. Laskentatehona toimi kolmen Nvidia RTX 4090 -näytönohjaimen kokoonpano, mikä mahdollisti suuriresoluutioisten kuvien tehokkaan käsittelyn.
Vertailu suoritettiin laskennallisten mittareiden, kuten mIoU:n ja IoU:n, tarkkuuden sekä visuaalisen tarkastelun perusteella. Tulokset osoittivat, että kaikki Transformer-mallit ylittivät DeepLabv3+:n tarkkuuden lähes kaikilla osa-alueilla. Erityisesti FeedFormer-B2 saavutti parhaat tulokset vaikeissakin luokissa. Segmentoinnin tarkkuutta testattiin myös painottamalla luokkia, mutta tämä ei tuottanut toivottua parannusta ja työn aikarajauksen takia sitä ei lähdetty lisää kartoittamaan tähän työhön.
Transformer-pohjaiset mallit osoittautuivat skaalautuviksi ja tehokkaiksi segmentointitehtävissä. Tulosten perusteella voidaan päätellä, että Transformer-arkkitehtuurit tarjoavat uskottavan vaihtoehdon perinteisille CNN-pohjaisille menetelmille teollisessa visuaalisessa laadunvalvonnassa. Tulevassa työssä voitaisiin keskittyä lisäämään aineistoa, kokeilla augmentointistrategioita ja optimoida mallien suoritusaikaa inferenssivaiheessa.