Tekoälyn hyödyntäminen julkishallinnon asianhallinnassa
Piippo, Laura (2022)
Piippo, Laura
2022
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2022053113801
https://urn.fi/URN:NBN:fi:amk-2022053113801
Tiivistelmä
Opinnäytetyön tavoitteena oli kehittää toimeksiantajan asianhallintajärjestelmää varten toteutettua asiakirjan automaattista asiasanojen poiminta -toiminnallisuutta järjestelmästä tehtävien hakujen parantamiseksi.
Tarvetta tekoälyn hyödyntämiselle asianhallintajärjestelmässä lähdettiin ensin kartoittamaan järjestelmän loppukäyttäjiltä itseltään. Ideoita oli alun perin muutamia. Yleisenä teemana haastatteluissa nousi esiin hakujen suorittaminen ja käyttäjät kokivat, että asiasanojen käytön tehostamisesta voisi olla hyötyä hakujen helpottamiseksi. Näin ollen tekoälyn hyödyntämisen kohteeksi valittiin jo olemassa olevan automaattisen asiasanojen poiminnan kehittäminen. Tekoälyn menetelmäksi olivat jo aiemman toteutuksen myötä valikoituneet luonnollisen kielen käsittelyn menetelmät.
Työssä vertaillaan kahden eri luonnollisen kielen käsittelyyn soveltuvan avoimen lähdekoodin kirjaston ominaisuuksia työn tavoitteen ja erityisesti aiemmassa toteutuksessa esiin tulleiden haasteiden näkökulmasta. Teoriaosuudessa käydään ensin läpi luonnollisen kielen käsittelyä sekä automaattista asiasanojen poimintaa yleisesti. Sen jälkeen käsitellään tarkemmin vertailussa olevia Gensim- ja spaCy-kirjastoja. Erityisesti keskitytään kirjastojen tarjoamiin mallin uudelleenopettamisen mahdollisuuksiin sekä lemmatisointiominaisuuksiin monikielisyyden tukeminen huomioon ottaen.
Tämän jälkeen pohditaan kumpi kirjasto soveltuisi tavoitteisiin nähden paremmin tähän tarkoitukseen, ja perustellaan käytetyn kirjaston valinta. Tutkimuksen ja muutamien kokeilujen perusteella toteutuksessa pääasiallisesti käytettäväksi kirjastoksi valittiin spaCy, johon otettiin kuitenkin käyttöön Gensim-kirjaston Word2Vec -algoritmia hyödyntäen generoidut sanavektorit. Käytännön osuudesta kerrotaan, miten se toteutettiin sekä vertaillaan tuloksia aiempaan toteutukseen.
Tämän tutkimuksen lopputuloksena syntyneen toteutuksen myötä asianhallintajärjestelmään ladatuille asiakirjoille voidaan hakea asiasanoja automaattisesti. Asiasanojen poiminta tapahtuu samalla logiikalla kaikille asiakirjoille, jolloin asiasanat noudattavat samaa yhtenäistä linjaa, eikä järjestelmän käyttäjien aikaa kulu niiden miettimiseen. Asiasanat tehostavat myös asiakirjojen hakua, koska niitä voidaan käyttää hakuehtoina. Aiemman toteutuksen parantamiseksi asetetut tavoitteet palautettavien asiasanojen priorisoinnista, myös muiden kuin englanninkielisten sanojen lemmatisoinnista sekä mallin jatkuvasta kehittymisestä saavutettiin. The purpose of the thesis was to develop an automatic keyword extraction functionality, which was implemented for the employer’s case management system in order to improve searches performed in the system.
The use case to be addressed by artificial intelligence was initially researched by interviewing the system’s users. At first there were a couple of alternatives. In the interviews, the search functionality emerged as a recurring theme. The users felt that improved keyword usage could make documents easier to find and improve search performance. Therefore, the objective became to improve the already existing keyword extraction. Natural language processing was selected as the approach, since the previous implementation was already based on it.
In this thesis, two different open source libraries suitable for natural language processing are compared in the perspective of the objectives of this thesis and, especially, concentrating on the challenges that have arisen with the existing implementation. In the theory part, natural language processing and automatic keyword extraction are introduced in general. After that, the compared Gensim and spaCy libraries are discussed in more detail. In particular, the focus is on opportunities to retrain the model and lemmatization features while taking support for multilingualism into account.
Next, it is considered which of the libraries would be most suitable for keyword extraction in relation to the objectives, and the choice of library used is justified. Based on research and some experimentation, the main used library in the implementation is decided to be the spaCy library, supplemented with word vectors created by the Gensim Word2Vec algorithm. The practical part of this thesis presents how this was implemented and also compares the results with the previous implementation.
As the result of this implementation, keywords can be automatically extracted for documents uploaded to the case management system. Automated keyword extraction is done following the same logic for all documents. The keyword selection is based on the same unified principles and the end users of the system do not have to waste their time on it. Keywords also improve document searches as they can be used as search criteria. The objectives set for improving the existing implementation were met: prioritization of keywords, lemmatization also for non-English words and continuous improvement of the model.
Tarvetta tekoälyn hyödyntämiselle asianhallintajärjestelmässä lähdettiin ensin kartoittamaan järjestelmän loppukäyttäjiltä itseltään. Ideoita oli alun perin muutamia. Yleisenä teemana haastatteluissa nousi esiin hakujen suorittaminen ja käyttäjät kokivat, että asiasanojen käytön tehostamisesta voisi olla hyötyä hakujen helpottamiseksi. Näin ollen tekoälyn hyödyntämisen kohteeksi valittiin jo olemassa olevan automaattisen asiasanojen poiminnan kehittäminen. Tekoälyn menetelmäksi olivat jo aiemman toteutuksen myötä valikoituneet luonnollisen kielen käsittelyn menetelmät.
Työssä vertaillaan kahden eri luonnollisen kielen käsittelyyn soveltuvan avoimen lähdekoodin kirjaston ominaisuuksia työn tavoitteen ja erityisesti aiemmassa toteutuksessa esiin tulleiden haasteiden näkökulmasta. Teoriaosuudessa käydään ensin läpi luonnollisen kielen käsittelyä sekä automaattista asiasanojen poimintaa yleisesti. Sen jälkeen käsitellään tarkemmin vertailussa olevia Gensim- ja spaCy-kirjastoja. Erityisesti keskitytään kirjastojen tarjoamiin mallin uudelleenopettamisen mahdollisuuksiin sekä lemmatisointiominaisuuksiin monikielisyyden tukeminen huomioon ottaen.
Tämän jälkeen pohditaan kumpi kirjasto soveltuisi tavoitteisiin nähden paremmin tähän tarkoitukseen, ja perustellaan käytetyn kirjaston valinta. Tutkimuksen ja muutamien kokeilujen perusteella toteutuksessa pääasiallisesti käytettäväksi kirjastoksi valittiin spaCy, johon otettiin kuitenkin käyttöön Gensim-kirjaston Word2Vec -algoritmia hyödyntäen generoidut sanavektorit. Käytännön osuudesta kerrotaan, miten se toteutettiin sekä vertaillaan tuloksia aiempaan toteutukseen.
Tämän tutkimuksen lopputuloksena syntyneen toteutuksen myötä asianhallintajärjestelmään ladatuille asiakirjoille voidaan hakea asiasanoja automaattisesti. Asiasanojen poiminta tapahtuu samalla logiikalla kaikille asiakirjoille, jolloin asiasanat noudattavat samaa yhtenäistä linjaa, eikä järjestelmän käyttäjien aikaa kulu niiden miettimiseen. Asiasanat tehostavat myös asiakirjojen hakua, koska niitä voidaan käyttää hakuehtoina. Aiemman toteutuksen parantamiseksi asetetut tavoitteet palautettavien asiasanojen priorisoinnista, myös muiden kuin englanninkielisten sanojen lemmatisoinnista sekä mallin jatkuvasta kehittymisestä saavutettiin.
The use case to be addressed by artificial intelligence was initially researched by interviewing the system’s users. At first there were a couple of alternatives. In the interviews, the search functionality emerged as a recurring theme. The users felt that improved keyword usage could make documents easier to find and improve search performance. Therefore, the objective became to improve the already existing keyword extraction. Natural language processing was selected as the approach, since the previous implementation was already based on it.
In this thesis, two different open source libraries suitable for natural language processing are compared in the perspective of the objectives of this thesis and, especially, concentrating on the challenges that have arisen with the existing implementation. In the theory part, natural language processing and automatic keyword extraction are introduced in general. After that, the compared Gensim and spaCy libraries are discussed in more detail. In particular, the focus is on opportunities to retrain the model and lemmatization features while taking support for multilingualism into account.
Next, it is considered which of the libraries would be most suitable for keyword extraction in relation to the objectives, and the choice of library used is justified. Based on research and some experimentation, the main used library in the implementation is decided to be the spaCy library, supplemented with word vectors created by the Gensim Word2Vec algorithm. The practical part of this thesis presents how this was implemented and also compares the results with the previous implementation.
As the result of this implementation, keywords can be automatically extracted for documents uploaded to the case management system. Automated keyword extraction is done following the same logic for all documents. The keyword selection is based on the same unified principles and the end users of the system do not have to waste their time on it. Keywords also improve document searches as they can be used as search criteria. The objectives set for improving the existing implementation were met: prioritization of keywords, lemmatization also for non-English words and continuous improvement of the model.