PDF-tiedoston sisältämän taulukon muuttaminen käsiteltävään muotoon
Valanne, Katja (2015)
Valanne, Katja
Metropolia Ammattikorkeakoulu
2015
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2015101915498
https://urn.fi/URN:NBN:fi:amk-2015101915498
Tiivistelmä
Insinöörityössä selvitettiin menetelmiä, joiden avulla voidaan muuntaa PDF-tiedoston sisältämä taulukkomuotoinen tieto käsiteltävään muotoon CSV-tiedostoksi. Monet tahot jakavat tietoa PDF-muodossa, mikä tekee tiedon jatkokäsittelystä hankalaa. PDF on lopulliseksi tarkoitettu dokumenttimuoto, jonka tehtävä on säilyttää visuaalinen ulkoasu samanlaisena eri alustoilla. Se ei yleensä sisällä mitään tietoa sisällön rakenteesta ja hierarkiasta. Sen vuoksi sen sisältämää taulukkotietoa ei pysty käsittelemään ilman, että se muunnetaan johonkin toiseen tiedostomuotoon kuten esimerkiksi CSV. Se on tekstitiedosto, jossa data on eroteltu rakenteensa mukaan tietueisiin ja tietueet kenttiin. CSV-muotoon muutettua tietoa pystyy helposti jatkojalostamaan.
Koska PDF-tiedostojen koodaus, taulukoiden ulkoasu ja niiden sisältämä data vaihtelevat huomattavasti, ei voida löytää yhtä muuntomenetelmää, joka sopisi kaikkiin tapauksiin. Lisäksi tilanteet, joissa dataa halutaan käsitellä, vaihtelevat. Insinöörityön tarkoitus oli koota tietoa eri muuntomenetelmien toimivuudesta ja tarjota ratkaisuja erilaisiin tilanteisiin.
Koeaineistoksi valittiin kolme PDF-tiedostoa, joissa olevan monisivuisen taulukon muuntaminen on eri syistä ongelmallista. Testeissä löydettiin viisi menetelmää, joilla useissa tapauksissa pystytään tuottamaan PDF:stä CSV-muoto suoraan ilman välivaiheita. Lisäksi löydettiin erilaisia menetelmiä, joilla taulukko saadaan muutettua välivaiheeksi sopivaan tiedostomuotoon, kuten TXT, Word, Excel ja HTML. Näitä menetelmiä ovat Acrobat Pron keinot kopiointi ja liittäminen sekä vieminen eri tiedostomuodoissa, online-palvelut ja erilaiset muunto-ohjelmat. Useimmilla muuntotavoilla ei saada valmista lopputulosta, joten työssä selvitettiin myös ylimääräisen datan poistoa ja dokumentin muuntoa välivaiheen tiedostomuodoista CSV-muotoon.
Insinöörityössä havaittiin, että hankalimmillaan PDF:n sisältämän taulukon muuntaminen käsiteltävään muotoon on monivaiheinen prosessi, jossa on otettava huomioon erilaisia muunto-ohjelman, PDF:n, taulukon ja sen sisältämän datan ominaisuuksia sekä muiden ohjelmien ja järjestelmän asetuksia.
Koska PDF-tiedostojen koodaus, taulukoiden ulkoasu ja niiden sisältämä data vaihtelevat huomattavasti, ei voida löytää yhtä muuntomenetelmää, joka sopisi kaikkiin tapauksiin. Lisäksi tilanteet, joissa dataa halutaan käsitellä, vaihtelevat. Insinöörityön tarkoitus oli koota tietoa eri muuntomenetelmien toimivuudesta ja tarjota ratkaisuja erilaisiin tilanteisiin.
Koeaineistoksi valittiin kolme PDF-tiedostoa, joissa olevan monisivuisen taulukon muuntaminen on eri syistä ongelmallista. Testeissä löydettiin viisi menetelmää, joilla useissa tapauksissa pystytään tuottamaan PDF:stä CSV-muoto suoraan ilman välivaiheita. Lisäksi löydettiin erilaisia menetelmiä, joilla taulukko saadaan muutettua välivaiheeksi sopivaan tiedostomuotoon, kuten TXT, Word, Excel ja HTML. Näitä menetelmiä ovat Acrobat Pron keinot kopiointi ja liittäminen sekä vieminen eri tiedostomuodoissa, online-palvelut ja erilaiset muunto-ohjelmat. Useimmilla muuntotavoilla ei saada valmista lopputulosta, joten työssä selvitettiin myös ylimääräisen datan poistoa ja dokumentin muuntoa välivaiheen tiedostomuodoista CSV-muotoon.
Insinöörityössä havaittiin, että hankalimmillaan PDF:n sisältämän taulukon muuntaminen käsiteltävään muotoon on monivaiheinen prosessi, jossa on otettava huomioon erilaisia muunto-ohjelman, PDF:n, taulukon ja sen sisältämän datan ominaisuuksia sekä muiden ohjelmien ja järjestelmän asetuksia.