Tekoäly ja automaatio tiedonkeruussa: PDF-lomakkeiden käsittely ja analyysi
Ihanus, Eetu (2026)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202603043706
https://urn.fi/URN:NBN:fi:amk-202603043706
Tiivistelmä
PDF-muotoiset tiedostot ovat yleisin tiedonlähde, ja ne sisältävät usein rakenteetonta dataa. Näistä dokumenteista voidaan kerätä monenlaista tietoa, mikä tekee niiden käsittelystä merkittävän osan tiedonhallintaa ja analytiikkaa. Tiedonkeräyksestä haasteellista tekevät kuitenkin tiedostojen vaihteleva rakenne ja asettelu. Tekoälyratkaisujen, kuten Generative Pre-trained Transformer (GPT) -mallien, nopea kehitys tarjoaa uusia mahdollisuuksia rakenteettoman datan jäsentämisen tehostamiseen automatiikan avulla. Niiden käyttö edellyttää kuitenkin huolellista ohjeistusta, jotta tulokset ovat luotettavia ja hyödynnettävissä.
Opinnäytetyön toimeksiantajana toimi Jyväskylän ammattikorkeakoulun (Jamk) hyvinvointiyksikköön kuuluva Likes-tulosalue. Työ oli osa Valtionavustamistoiminnan arviointi ja datan hallinta liikuntasektoreilla (Varma) -hanketta. Tavoitteena oli selvittää, kuinka tekoälyä hyödyntämällä voitaisiin nopeuttaa ja automatisoida tietojen keruuta PDF-dokumenteista, joiden rakenne ja asettelu eivät ole yhtenäisiä. Lisäksi tarkoituksena oli tunnistaa tekijät, jotka vaikeuttavat PDF-dokumenttien käsittelyä GPT-tekoälymalleilla.
Työ toteutettiin kehittämistyönä, jossa sovellettiin Cross-Industry Standard Process for Data Mining (CRISP-DM) -prosessimallia datan ymmärtämiseen, valmisteluun ja arviointiin. Käytännön toteutus sisälsi Microsoft Power Automate -palvelun pilvityönkulkujen suunnittelun ja GPT-mallien ohjeistuksen tietojen poimintaa varten. PDF-tiedostojen käsittelyssä hyödynnettiin optista tekstintunnistusta (OCR) ja kehitettyä tekoäly-pohjaista pilvityönkulkua tietojen jäsentämiseen. Datan yhdistäminen ja analysointi toteutettiin JupyterLab ympäristössä Pythonin Pandas-kirjastolla.
Työn tuloksena muodostettiin Opetus- ja kulttuuriministeriön (OKM) yleisavustusta saaneiden lajiliittojen jäsenseurojen tiedoista koostuva datasetti, joka sisälsi noin 8126 seuran tiedot 73 lajiliitosta. Lisäksi tunnistettiin PDF-tiedostojen rakenteeseen liittyvät haasteet, token-rajoitusten vaikutuksia ja tekoälymallien rajoitteita aineistojen käsittelyssä.
Johtopäätöksenä todettiin, että tekoäly- ja automaatiotyökalujen hyödyntäminen PDF-tiedostojen tietojen keräyksessä nopeuttaa prosessia, vaikka täydellistä automaatiota ei saavutettu työssä käytettyjen palveluiden rajoitteiden vuoksi.
Opinnäytetyön toimeksiantajana toimi Jyväskylän ammattikorkeakoulun (Jamk) hyvinvointiyksikköön kuuluva Likes-tulosalue. Työ oli osa Valtionavustamistoiminnan arviointi ja datan hallinta liikuntasektoreilla (Varma) -hanketta. Tavoitteena oli selvittää, kuinka tekoälyä hyödyntämällä voitaisiin nopeuttaa ja automatisoida tietojen keruuta PDF-dokumenteista, joiden rakenne ja asettelu eivät ole yhtenäisiä. Lisäksi tarkoituksena oli tunnistaa tekijät, jotka vaikeuttavat PDF-dokumenttien käsittelyä GPT-tekoälymalleilla.
Työ toteutettiin kehittämistyönä, jossa sovellettiin Cross-Industry Standard Process for Data Mining (CRISP-DM) -prosessimallia datan ymmärtämiseen, valmisteluun ja arviointiin. Käytännön toteutus sisälsi Microsoft Power Automate -palvelun pilvityönkulkujen suunnittelun ja GPT-mallien ohjeistuksen tietojen poimintaa varten. PDF-tiedostojen käsittelyssä hyödynnettiin optista tekstintunnistusta (OCR) ja kehitettyä tekoäly-pohjaista pilvityönkulkua tietojen jäsentämiseen. Datan yhdistäminen ja analysointi toteutettiin JupyterLab ympäristössä Pythonin Pandas-kirjastolla.
Työn tuloksena muodostettiin Opetus- ja kulttuuriministeriön (OKM) yleisavustusta saaneiden lajiliittojen jäsenseurojen tiedoista koostuva datasetti, joka sisälsi noin 8126 seuran tiedot 73 lajiliitosta. Lisäksi tunnistettiin PDF-tiedostojen rakenteeseen liittyvät haasteet, token-rajoitusten vaikutuksia ja tekoälymallien rajoitteita aineistojen käsittelyssä.
Johtopäätöksenä todettiin, että tekoäly- ja automaatiotyökalujen hyödyntäminen PDF-tiedostojen tietojen keräyksessä nopeuttaa prosessia, vaikka täydellistä automaatiota ei saavutettu työssä käytettyjen palveluiden rajoitteiden vuoksi.
