Ontologiakartan rakentaminen Wikidatan avulla
Hurtta, Jussi (2022)
Hurtta, Jussi
2022
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202205169420
https://urn.fi/URN:NBN:fi:amk-202205169420
Tiivistelmä
Opinnäytetyössä tutkittiin pystyykö asiasanalistalle rakentamaan hierarkiagraafin Wikidatan julkisen ontologian avulla. Tavoitteena oli muokata litteästä listasta BERT-mallinnukseen käytettyille termeille hierarkiarakenne, jolla asiasanoja voisi luokitella.
Työ rakennettiin AWS-pilveen ja dataa kerättiin Wikidatan rajapinnoista Pythonin ja SPARQL-kyselykielen avulla. Dataa tallennettiin Neptune-graafitietokantaan käyttäen Pythonia ja Gremlin-kyselykieltä. Graafitaulua tarkasteltiin Jupyter notebookin työkalujen avulla.
Työn lopputulos koostui Neptune-graafikannasta ja siihen tallennetuista entiteeteistä ja niille löydetyistä suhteista. Todettiin, että Wikidatan hierarkiat suurilta osin eivät olleet peilattavissa käytettävään asiasanasastoon. Käytettävä asiasanasto ja sille halutut entiteettisuhteet poikkesivat liikaa Wikidatan yleisestä ontologiasta.
Käytetyt metodit olisivat saattaneet olla käyttökelpoisempia, jos asiasanasto olisi muistuttanut yleistä ontologiaa enemmän. Graafirakenne osoittautui hyväksi tavaksi tallentaa ontologiahierarkiaa, mutta varsinaiset entiteettisuhteet jouduttiin hakemaan muista lähteistä.
Työ rakennettiin AWS-pilveen ja dataa kerättiin Wikidatan rajapinnoista Pythonin ja SPARQL-kyselykielen avulla. Dataa tallennettiin Neptune-graafitietokantaan käyttäen Pythonia ja Gremlin-kyselykieltä. Graafitaulua tarkasteltiin Jupyter notebookin työkalujen avulla.
Työn lopputulos koostui Neptune-graafikannasta ja siihen tallennetuista entiteeteistä ja niille löydetyistä suhteista. Todettiin, että Wikidatan hierarkiat suurilta osin eivät olleet peilattavissa käytettävään asiasanasastoon. Käytettävä asiasanasto ja sille halutut entiteettisuhteet poikkesivat liikaa Wikidatan yleisestä ontologiasta.
Käytetyt metodit olisivat saattaneet olla käyttökelpoisempia, jos asiasanasto olisi muistuttanut yleistä ontologiaa enemmän. Graafirakenne osoittautui hyväksi tavaksi tallentaa ontologiahierarkiaa, mutta varsinaiset entiteettisuhteet jouduttiin hakemaan muista lähteistä.