Lääketieteellisen alan viitetietokannan sisällönkuvailun automatisoinnin edellytyksiä ja haasteita
Pelimanni, Tiina (2025)
Pelimanni, Tiina
2025
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202505059065
https://urn.fi/URN:NBN:fi:amk-202505059065
Tiivistelmä
Tässä opinnäytetyössä selvitettiin yliopistokirjaston ylläpitämän lääketieteellisen alan viitetietokannan sisällönkuvailun automatisoinnin edellytyksiä. Työn tavoitteena oli kartoittaa ja kuvata sisällönkuvailun nykyinen prosessi ja selvittää sisällönkuvailun automaatioon siirtymiseen liittyviä mahdollisuuksia ja haasteita.
Opinnäytetyö tehtiin Helsingin yliopiston kirjaston toimeksiantona. Taustalla oli tarve purkaa viitetietokannan ylläpitämiseksi tehtävää käsityötä. Työn aikana kerättyä ja tuotettua tietoa käytettiin pohjana käsityön purkamiseen tähtäävän projektin käynnistämisessä.
Työ toteutettiin laadullisin menetelmin haastattelemalla asiantuntijoita, jotka osallistuvat tietokannan ylläpitoon ja sisällönkuvailuun. Tietoperusta koostui sisällönkuvailun ja asiasanastojen merkityksestä tiedon järjestämisessä ja tiedonhaussa, tekoälyn ja koneoppimisen peruskäsitteistä sekä lyhyestä katsauksesta sisällönkuvailun automaation aikaisempiin ratkaisuihin ja kokeiluihin.
Nykytilanteen kartoituksessa konkretisoitui, miten paljon työtä luetteloinnissa ja sisällönkuvailussa tehdään edelleen manuaalisesti. Kehityskohdetietokannan tapauksessa näitä töitä myös tehtiin muiden tehtävien lomassa. Automaation osalta työssä keskityttiin Kansalliskirjaston kehittämän avoimen lähdekoodin Annif-ohjelmiston käyttöönoton mahdollisuuksiin ja haasteisiin. Asiantuntijahaastatteluiden lisäksi edellytyksiä kartoitettiin käymällä läpi Annifin dokumentaatiota ja dokumentoituja aikaisempia käyttökokemuksia niin Annifin kuin vastaavien järjestelmien käyttämisestä.
Tuloksissa huomattiin automaattisen sisällönkuvailujärjestelmän käyttöönoton vaativan paitsi koneoppimismallien kouluttamiseen, datan käsittelyyn ja integraatioihin liittyvää teknistä osaamista myös sisällönkuvailijoiden asiantuntemusta laadun tarkkailua varten. Keskeisiksi haasteiksi nousivat koulutusdatan riittävyys ja kattavuus, käytetyn asiasanaston hierarkkisuus sekä se, onko oikea toimintajärjestys keskittyä kehityskohdetietokannan haasteiden ratkaisemiseen vai yleisemmin luetteloinnin ja sisällönkuvailun automaation edistämiseen. This thesis explored the prerequisites and challenges of automating the subject indexing process for a medical reference database maintained by a university library. The study had two main goals: first, to survey the current indexing process; and second, to map out the resources needed for transitioning to an automated subject indexing tool, while also identifying the potential pitfalls.
The thesis was commissioned by the Helsinki University Library. The project addressed the need to reduce the amount of manual input still required for maintaining the reference database. The research was conducted using qualitative methods, including expert interviews and observations of the current process. The focus regarding automation was on the potential implementation of the open-source Annif software developed by the National Library of Finland.
The findings highlight the significant manual effort still required in cataloguing and subject indexing. Key challenges include the need for technical expertise, sufficient training data, and the hierarchical structure of the thesaurus used. This thesis sheds light on the prerequisites for a successful transition to automation and the broader implications for cataloguing and indexing in the library.
Opinnäytetyö tehtiin Helsingin yliopiston kirjaston toimeksiantona. Taustalla oli tarve purkaa viitetietokannan ylläpitämiseksi tehtävää käsityötä. Työn aikana kerättyä ja tuotettua tietoa käytettiin pohjana käsityön purkamiseen tähtäävän projektin käynnistämisessä.
Työ toteutettiin laadullisin menetelmin haastattelemalla asiantuntijoita, jotka osallistuvat tietokannan ylläpitoon ja sisällönkuvailuun. Tietoperusta koostui sisällönkuvailun ja asiasanastojen merkityksestä tiedon järjestämisessä ja tiedonhaussa, tekoälyn ja koneoppimisen peruskäsitteistä sekä lyhyestä katsauksesta sisällönkuvailun automaation aikaisempiin ratkaisuihin ja kokeiluihin.
Nykytilanteen kartoituksessa konkretisoitui, miten paljon työtä luetteloinnissa ja sisällönkuvailussa tehdään edelleen manuaalisesti. Kehityskohdetietokannan tapauksessa näitä töitä myös tehtiin muiden tehtävien lomassa. Automaation osalta työssä keskityttiin Kansalliskirjaston kehittämän avoimen lähdekoodin Annif-ohjelmiston käyttöönoton mahdollisuuksiin ja haasteisiin. Asiantuntijahaastatteluiden lisäksi edellytyksiä kartoitettiin käymällä läpi Annifin dokumentaatiota ja dokumentoituja aikaisempia käyttökokemuksia niin Annifin kuin vastaavien järjestelmien käyttämisestä.
Tuloksissa huomattiin automaattisen sisällönkuvailujärjestelmän käyttöönoton vaativan paitsi koneoppimismallien kouluttamiseen, datan käsittelyyn ja integraatioihin liittyvää teknistä osaamista myös sisällönkuvailijoiden asiantuntemusta laadun tarkkailua varten. Keskeisiksi haasteiksi nousivat koulutusdatan riittävyys ja kattavuus, käytetyn asiasanaston hierarkkisuus sekä se, onko oikea toimintajärjestys keskittyä kehityskohdetietokannan haasteiden ratkaisemiseen vai yleisemmin luetteloinnin ja sisällönkuvailun automaation edistämiseen.
The thesis was commissioned by the Helsinki University Library. The project addressed the need to reduce the amount of manual input still required for maintaining the reference database. The research was conducted using qualitative methods, including expert interviews and observations of the current process. The focus regarding automation was on the potential implementation of the open-source Annif software developed by the National Library of Finland.
The findings highlight the significant manual effort still required in cataloguing and subject indexing. Key challenges include the need for technical expertise, sufficient training data, and the hierarchical structure of the thesaurus used. This thesis sheds light on the prerequisites for a successful transition to automation and the broader implications for cataloguing and indexing in the library.