Koneoppimisen keinoin toteutetun tikettiluokittelijan teknologiaa ja case-kuvaus
Koskinen, Antti (2023)
Koskinen, Antti
2023
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2023053116819
https://urn.fi/URN:NBN:fi:amk-2023053116819
Tiivistelmä
Yritykset muodostavat saamistaan yhteydenotoista tikettejä, joita ohjataan yhteydenoton aiheen ja sisällön perusteella sopiville yksiköille ja ihmisille käsittelyyn. Tikettien luokittelu ja ohjaaminen on varsin työllistävää ja siten kustannuksia aiheuttavaa tekemistä, minkä vuoksi tikettien käsittelyä pyritään automatisoimaan. Opinnäytetyössä haluttiin ymmärtää, miten koneoppimisen keinoin voidaan toteuttaa tikettiluokittelija yrityksen tarpeisiin. Työssä tarkastellaan tikettiluokittelijalle teoreettisen pohjan antavia luonnollisen kielen käsittelyn sekä koneoppimisen menetelmiä. Käytännön toteutuksesta käytetään esimerkkinä Istekki Oy:ssä toteutettua tikettiluokittelijaa.
Luonnollisen kielen käsittelyn teoriaosuudessa kerrotaan, miten kirjoitettu teksti saadaan sellaiseen muotoon, jota tietokone kykenee käsittelemään. Kuvattuja menetelmiä ovat esimerkiksi tokenisointi, stemmaaminen ja lemmatisointi. Tekstin painottamisen ja analysoimisen osalta työssä käsitellään TF-IDF-mallia, vektoriavaruusmallia sekä pääkomponenttianalyysiä. Koneoppimisen teoria-osuus painottuu suosituimpiin luokitteluun kykeneviin koneoppimisen menetelmiin eli päätöspuuhun, naiiviin bayesilaiseen luokittelijaan, satunnaismetsään, tukivektorikoneeseen ja k-lähimmän naapurin luokittelijaan. Teoriaosuudessa käydään läpi myös tyypillisimmät mittarit, joilla luokittelijoiden toimivuutta arvioidaan.
Case-esimerkkinä kuvataan Istekki Oy:ssä luotu tikettiluokittelija, jonka toteutuksessa hyödynnetään teoriaosuudessa kuvattuja luonnollisen kielen käsittelyn menetelmiä sekä koneoppimisen puolelta päätöspuuta ja naiivia bayesilaista luokittelijaa. Tikettiluokittelijan toimivuutta arvioidaan valittujen mittareiden kautta sekä vertaamalla samassa yhtiössä ihmisen tekemän tikettiluokittelun onnistumiseen. Lisäksi kuvataan kahdessa suomalaisessa ohjelmistoalan yhtiössä toteutetut, lopulta varsin samankaltaiset, tikettiluokittelijan toteutukset. Luokittelijoiden saamien tulosten voidaan todeta olevan vielä kaukana koulutetun ihmisen tuloksista, mutta kuitenkin tuottavan riittävästi hyötyjä perustelemaan niiden käytön.
Luonnollisen kielen käsittelyn teoriaosuudessa kerrotaan, miten kirjoitettu teksti saadaan sellaiseen muotoon, jota tietokone kykenee käsittelemään. Kuvattuja menetelmiä ovat esimerkiksi tokenisointi, stemmaaminen ja lemmatisointi. Tekstin painottamisen ja analysoimisen osalta työssä käsitellään TF-IDF-mallia, vektoriavaruusmallia sekä pääkomponenttianalyysiä. Koneoppimisen teoria-osuus painottuu suosituimpiin luokitteluun kykeneviin koneoppimisen menetelmiin eli päätöspuuhun, naiiviin bayesilaiseen luokittelijaan, satunnaismetsään, tukivektorikoneeseen ja k-lähimmän naapurin luokittelijaan. Teoriaosuudessa käydään läpi myös tyypillisimmät mittarit, joilla luokittelijoiden toimivuutta arvioidaan.
Case-esimerkkinä kuvataan Istekki Oy:ssä luotu tikettiluokittelija, jonka toteutuksessa hyödynnetään teoriaosuudessa kuvattuja luonnollisen kielen käsittelyn menetelmiä sekä koneoppimisen puolelta päätöspuuta ja naiivia bayesilaista luokittelijaa. Tikettiluokittelijan toimivuutta arvioidaan valittujen mittareiden kautta sekä vertaamalla samassa yhtiössä ihmisen tekemän tikettiluokittelun onnistumiseen. Lisäksi kuvataan kahdessa suomalaisessa ohjelmistoalan yhtiössä toteutetut, lopulta varsin samankaltaiset, tikettiluokittelijan toteutukset. Luokittelijoiden saamien tulosten voidaan todeta olevan vielä kaukana koulutetun ihmisen tuloksista, mutta kuitenkin tuottavan riittävästi hyötyjä perustelemaan niiden käytön.