Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomi
  • Svenska
  • English
  • Kirjaudu
Hakuohjeet
JavaScript is disabled for your browser. Some features of this site may not work without it.
Näytä viite 
  •   Ammattikorkeakoulut
  • Jyväskylän ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite
  •   Ammattikorkeakoulut
  • Jyväskylän ammattikorkeakoulu
  • Opinnäytetyöt (Avoin kokoelma)
  • Näytä viite

Tekoäly ja automaatio tiedonkeruussa: PDF-lomakkeiden käsittely ja analyysi

Ihanus, Eetu (2026)

 
Avaa tiedosto
Ihanus_Eetu.pdf (9.657Mt)
Lataukset: 


Ihanus, Eetu
2026
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202603043706
Tiivistelmä
PDF-muotoiset tiedostot ovat yleisin tiedonlähde, ja ne sisältävät usein rakenteetonta dataa. Näistä dokumenteista voidaan kerätä monenlaista tietoa, mikä tekee niiden käsittelystä merkittävän osan tiedonhallintaa ja analytiikkaa. Tiedonkeräyksestä haasteellista tekevät kuitenkin tiedostojen vaihteleva rakenne ja asettelu. Tekoälyratkaisujen, kuten Generative Pre-trained Transformer (GPT) -mallien, nopea kehitys tarjoaa uusia mahdollisuuksia rakenteettoman datan jäsentämisen tehostamiseen automatiikan avulla. Niiden käyttö edellyttää kuitenkin huolellista ohjeistusta, jotta tulokset ovat luotettavia ja hyödynnettävissä.

Opinnäytetyön toimeksiantajana toimi Jyväskylän ammattikorkeakoulun (Jamk) hyvinvointiyksikköön kuuluva Likes-tulosalue. Työ oli osa Valtionavustamistoiminnan arviointi ja datan hallinta liikuntasektoreilla (Varma) -hanketta. Tavoitteena oli selvittää, kuinka tekoälyä hyödyntämällä voitaisiin nopeuttaa ja automatisoida tietojen keruuta PDF-dokumenteista, joiden rakenne ja asettelu eivät ole yhtenäisiä. Lisäksi tarkoituksena oli tunnistaa tekijät, jotka vaikeuttavat PDF-dokumenttien käsittelyä GPT-tekoälymalleilla.

Työ toteutettiin kehittämistyönä, jossa sovellettiin Cross-Industry Standard Process for Data Mining (CRISP-DM) -prosessimallia datan ymmärtämiseen, valmisteluun ja arviointiin. Käytännön toteutus sisälsi Microsoft Power Automate -palvelun pilvityönkulkujen suunnittelun ja GPT-mallien ohjeistuksen tietojen poimintaa varten. PDF-tiedostojen käsittelyssä hyödynnettiin optista tekstintunnistusta (OCR) ja kehitettyä tekoäly-pohjaista pilvityönkulkua tietojen jäsentämiseen. Datan yhdistäminen ja analysointi toteutettiin JupyterLab ympäristössä Pythonin Pandas-kirjastolla.

Työn tuloksena muodostettiin Opetus- ja kulttuuriministeriön (OKM) yleisavustusta saaneiden lajiliittojen jäsenseurojen tiedoista koostuva datasetti, joka sisälsi noin 8126 seuran tiedot 73 lajiliitosta. Lisäksi tunnistettiin PDF-tiedostojen rakenteeseen liittyvät haasteet, token-rajoitusten vaikutuksia ja tekoälymallien rajoitteita aineistojen käsittelyssä.

Johtopäätöksenä todettiin, että tekoäly- ja automaatiotyökalujen hyödyntäminen PDF-tiedostojen tietojen keräyksessä nopeuttaa prosessia, vaikka täydellistä automaatiota ei saavutettu työssä käytettyjen palveluiden rajoitteiden vuoksi.
Kokoelmat
  • Opinnäytetyöt (Avoin kokoelma)
Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatKoulutusalatAsiasanatUusimmatKokoelmat

Henkilökunnalle

Ammattikorkeakoulujen opinnäytetyöt ja julkaisut
Yhteydenotto | Tietoa käyttöoikeuksista | Tietosuojailmoitus | Saavutettavuusseloste