From Multimodal Data to an AI Tool : Developing a Language Model Based on Company Documents
Laukkanen, Emma (2025)
Laukkanen, Emma
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025090124328
https://urn.fi/URN:NBN:fi:amk-2025090124328
Tiivistelmä
Tässä opinnäytetyössä tutkittiin offline-tilassa olevan toimivan tekoälytyökalun kehittämistä, joka kykenee käsittelemään multimodaalista teknistä dokumentaatiota. Tätä varten hienosäädettiin suurta kielimallia käyttämällä tekstistä, taulukoista ja kuvista koostuvaa dataa.
Opinnäytetyö alkoi katsauksella multimodaalisen datan käsittelytekniikoihin ja suurten kielimallien kehitykseen. Tässä katsauksessa korostettiin sekä niiden kasvavia mahdollisuuksia, että nykyisiä rajoituksia. Nykytilan analyysi arvioi kohdeyrityksessä käytettyjä nykyisiä työkaluja, ja arvioitiin niiden nykyisiä haasteita. Näihin haasteisiin kuuluivat heikko skaalautuvuus, vaikeudet käsitellä strukturoituja rakenteita ja visuaalisia elementtejä sekä tietoturvarajoitukset, jotka estävät pilvipohjaisten ratkaisujen käytön.
Näiden haasteiden ratkaisemiseksi teknisen dokumentaation sisältö esikäsiteltiin räätälöidyn prosessin avulla. LLaVA-malli valittiin sen multimodaalisen arkkitehtuurin vuoksi, joka yhdistää visuaaliset ja tekstisisällöt. Malli toimii täysin offline tilassa ja tukee tehokasta parametrien hienosäätöä. Koulutusaineisto rakennettiin JSON-tietuista, jotka säilyttivät dokumenttien kontekstin ja multimodaalisen sisällön yhteyden. Mallin hienosäätö toteutettiin resurssirajoitteisessa offline-ympäristössä. Prosessi osoitti teknisen toteutettavuutensa, vaikka koulutuskertoja oli vähän ja eräkoko oli pieni. Alustavat tulokset osoittivat vähänevää häviötä ja vakaata konvergenssia.
Opinnäytetyö osoitti, että multimodaalinen tekoäly voi merkittävästi parantaa tiedonsaantia, kun se perustuu huolelliseen datan esikäsittelyyn ja oikean mallin valintaan. Tulevaisuuden kehityskohteiksi tunnistettiin dokumenttien muotoilun epäjohdonmukaisuudet, resurssien rajallisuus ja sisällön poimintaan liittyvät haasteet. Kehitetty lähestymistapa loi kuitenkin vahvan perustan tekoälyavusteisen dokumentinkäsittelyn jatkokehitykselle.
Opinnäytetyö alkoi katsauksella multimodaalisen datan käsittelytekniikoihin ja suurten kielimallien kehitykseen. Tässä katsauksessa korostettiin sekä niiden kasvavia mahdollisuuksia, että nykyisiä rajoituksia. Nykytilan analyysi arvioi kohdeyrityksessä käytettyjä nykyisiä työkaluja, ja arvioitiin niiden nykyisiä haasteita. Näihin haasteisiin kuuluivat heikko skaalautuvuus, vaikeudet käsitellä strukturoituja rakenteita ja visuaalisia elementtejä sekä tietoturvarajoitukset, jotka estävät pilvipohjaisten ratkaisujen käytön.
Näiden haasteiden ratkaisemiseksi teknisen dokumentaation sisältö esikäsiteltiin räätälöidyn prosessin avulla. LLaVA-malli valittiin sen multimodaalisen arkkitehtuurin vuoksi, joka yhdistää visuaaliset ja tekstisisällöt. Malli toimii täysin offline tilassa ja tukee tehokasta parametrien hienosäätöä. Koulutusaineisto rakennettiin JSON-tietuista, jotka säilyttivät dokumenttien kontekstin ja multimodaalisen sisällön yhteyden. Mallin hienosäätö toteutettiin resurssirajoitteisessa offline-ympäristössä. Prosessi osoitti teknisen toteutettavuutensa, vaikka koulutuskertoja oli vähän ja eräkoko oli pieni. Alustavat tulokset osoittivat vähänevää häviötä ja vakaata konvergenssia.
Opinnäytetyö osoitti, että multimodaalinen tekoäly voi merkittävästi parantaa tiedonsaantia, kun se perustuu huolelliseen datan esikäsittelyyn ja oikean mallin valintaan. Tulevaisuuden kehityskohteiksi tunnistettiin dokumenttien muotoilun epäjohdonmukaisuudet, resurssien rajallisuus ja sisällön poimintaan liittyvät haasteet. Kehitetty lähestymistapa loi kuitenkin vahvan perustan tekoälyavusteisen dokumentinkäsittelyn jatkokehitykselle.