dc.contributor.author | Seppänen, Veikko | |
dc.date.accessioned | 2025-05-28T10:04:00Z | |
dc.date.available | 2025-05-28T10:04:00Z | |
dc.date.issued | 2025 | - |
dc.identifier.uri | http://www.theseus.fi/handle/10024/891155 | |
dc.description.abstract | Tässä työssä selvitettiin voisiko Transformer-arkkitehtuuriin pohjautuva konenäkömalli korvata perinteisen konvoluutioneuroverkkoon (CNN) pohjautuvan mallin viilutuotannon visuaalisessa laadunvalvonnassa. Lähtökohtana työlle oli Segformer-mallin kehitystutkimus, jossa on saavutettu parempi tarkkuus reaaliaikaisessa videokuvan segmentoinnissa – erityisesti tilanteissa, joissa mallin ei haluta reagoivan liikaa ympäristön vaihteluihin. Tavoitteena oli kouluttaa tarkempi Transformer-malli samalla aineistolla, jolla CNN-malli oli aiemmin koulutettu.
Työssä koulutettiin ja vertailtiin kahta Transformer-pohjaista segmentointimallia, SegFormer ja FeedFormer, samoilla aineistoilla kuin DeepLabv3+. Aineistona käytettiin noin 39 000 kuvaa ja maskia, joissa jokainen pikseli oli luokiteltu kuuteen eri luokkaan. Mallit koulutettiin Docker-konttiin rakennetussa kehitysympäristössä, ja aineisto esikäsiteltiin mmsegmentation-koodipohjan vaatimusten mukaiseksi. Koulutuksessa hyödynnettiin valmiiksi esikoulutettuja ImageNet-, ADE20K- ja Cityscapes-painoja. Laskentatehona toimi kolmen Nvidia RTX 4090 -näytönohjaimen kokoonpano, mikä mahdollisti suuriresoluutioisten kuvien tehokkaan käsittelyn.
Vertailu suoritettiin laskennallisten mittareiden, kuten mIoU:n ja IoU:n, tarkkuuden sekä visuaalisen tarkastelun perusteella. Tulokset osoittivat, että kaikki Transformer-mallit ylittivät DeepLabv3+:n tarkkuuden lähes kaikilla osa-alueilla. Erityisesti FeedFormer-B2 saavutti parhaat tulokset vaikeissakin luokissa. Segmentoinnin tarkkuutta testattiin myös painottamalla luokkia, mutta tämä ei tuottanut toivottua parannusta ja työn aikarajauksen takia sitä ei lähdetty lisää kartoittamaan tähän työhön.
Transformer-pohjaiset mallit osoittautuivat skaalautuviksi ja tehokkaiksi segmentointitehtävissä. Tulosten perusteella voidaan päätellä, että Transformer-arkkitehtuurit tarjoavat uskottavan vaihtoehdon perinteisille CNN-pohjaisille menetelmille teollisessa visuaalisessa laadunvalvonnassa. Tulevassa työssä voitaisiin keskittyä lisäämään aineistoa, kokeilla augmentointistrategioita ja optimoida mallien suoritusaikaa inferenssivaiheessa. | - |
dc.language.iso | fin | - |
dc.rights | fi=All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|sv=All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|en=All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.| | - |
dc.title | Konenäkömallien vertailu eri arkkitehtuurien välillä | - |
dc.type.ontasot | fi=AMK-opinnäytetyö|sv=YH-examensarbete|en=Bachelor's thesis| | - |
dc.identifier.urn | URN:NBN:fi:amk-2025052817333 | - |
dc.subject.degreeprogram | fi=Tieto- ja viestintätekniikka|sv=Informations- och kommunikationsteknik|en=Information and Communications Technology| | - |
dc.subject.yso | tekoäly | - |
dc.subject.yso | segmentointi | - |
dc.subject.yso | konenäkö | - |
dc.subject.yso | vertailu | - |
annif.suggestions.links | http://www.yso.fi/onto/yso/p2616|http://www.yso.fi/onto/yso/p18246|http://www.yso.fi/onto/yso/p2618|http://www.yso.fi/onto/yso/p9080|http://www.yso.fi/onto/yso/p20743|http://www.yso.fi/onto/yso/p510|http://www.yso.fi/onto/yso/p2130|http://www.yso.fi/onto/yso/p2615|http://www.yso.fi/onto/yso/p17003|http://www.yso.fi/onto/yso/p9345 | fi |
dc.rights.accessrights | Rajoitettu käyttöoikeus / Restricted access / Tillgången begränsad | |