PDF-tiedostojen parsiminen Pythonin avulla
Littman, Sebastian (2024)
Littman, Sebastian
2024
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2024120933963
https://urn.fi/URN:NBN:fi:amk-2024120933963
Tiivistelmä
Opinnäytetyön tavoitteena oli löytää tehokas pythonin sisäinen vaihtoehto parsimaan tekstiä PDF-tiedostoista. Opinnäytteen tuloksia tullaan hyödyntämään Xamkin ReseptiRobotti-hankkeessa, jossa tarkoituksena on luoda teknologian tasoa kartoittava työkalu. Tutkimuskysymyksenä tässä opinnäytteessä oli ”mikä valituista työkaluista parsii PDF-tiedostoja parhaiten?”.
Tutkimus tehtiin laadullisena tutkimuksena, jossa käytettiin kvalitatiivisia menetelmiä, kuten vertailuanalyysiä. Tähän menetelmään päädyttiin, sillä se sopii asioiden vertailuun, kun tarvitsee löytää vaihtoehto, joka edistyy tietyissä piirteissä. Toimeksiantajan kanssa toteutettiin haastattelu, jossa selvitettiin kriteerit työkalun toimivuuden arvosteluun. Työkaluja testattiin aineistolla, joka kerättiin Lens-hakukonetta käyttäen. Toimeksiantaja antoi hakuehdot, jonka avulla tutkimukseen kerättiin perusjoukko. Otosjoukko työkalujen vertailun suorittamiseen poimittiin 10 eri PDF-tiedostoa eri julkaisijoilta perusjoukosta.
Tuloksista otettiin huomiot erilliseen taulukkoon, jotka jaettiin toimeksiantajan kanssa. Näistä tuloksista luotiin vertailuanalyysi, jossa arvioitiin jokaista kriteeriä erikseen ja päädyttiin antamaan jokaiselle työkalulle arvosana jokaisessa kriteerissä. Näin löydettiin työkalu, joka suoriutuu paremmin esimerkiksi nopeudessa. Tulosten pohjalta saatiin selville, että yksivertaisesti parempaa työkalua ei löytynyt, vaan tarvitsi keskittyä virheisiin, joita molemmat työkalut tekivät, ja tämän avulla löytää paras vaihtoehto. Analyysien tuloksena havaittiin kuvatekstien ja diagrammiakselien tekstien aiheuttavan ongelmia tekstin parsinnassa. Havainnoista löytyi myös pienen fonttikoon aiheuttavan ongelmia tekstin parsinnassa.
Tutkimus tehtiin laadullisena tutkimuksena, jossa käytettiin kvalitatiivisia menetelmiä, kuten vertailuanalyysiä. Tähän menetelmään päädyttiin, sillä se sopii asioiden vertailuun, kun tarvitsee löytää vaihtoehto, joka edistyy tietyissä piirteissä. Toimeksiantajan kanssa toteutettiin haastattelu, jossa selvitettiin kriteerit työkalun toimivuuden arvosteluun. Työkaluja testattiin aineistolla, joka kerättiin Lens-hakukonetta käyttäen. Toimeksiantaja antoi hakuehdot, jonka avulla tutkimukseen kerättiin perusjoukko. Otosjoukko työkalujen vertailun suorittamiseen poimittiin 10 eri PDF-tiedostoa eri julkaisijoilta perusjoukosta.
Tuloksista otettiin huomiot erilliseen taulukkoon, jotka jaettiin toimeksiantajan kanssa. Näistä tuloksista luotiin vertailuanalyysi, jossa arvioitiin jokaista kriteeriä erikseen ja päädyttiin antamaan jokaiselle työkalulle arvosana jokaisessa kriteerissä. Näin löydettiin työkalu, joka suoriutuu paremmin esimerkiksi nopeudessa. Tulosten pohjalta saatiin selville, että yksivertaisesti parempaa työkalua ei löytynyt, vaan tarvitsi keskittyä virheisiin, joita molemmat työkalut tekivät, ja tämän avulla löytää paras vaihtoehto. Analyysien tuloksena havaittiin kuvatekstien ja diagrammiakselien tekstien aiheuttavan ongelmia tekstin parsinnassa. Havainnoista löytyi myös pienen fonttikoon aiheuttavan ongelmia tekstin parsinnassa.