Aihemallinnus journalismin työkaluna: menetelmä ja mahdollisuudet
Alariesto, Eleonora (2022)
Alariesto, Eleonora
2022
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2022053113654
https://urn.fi/URN:NBN:fi:amk-2022053113654
Tiivistelmä
Nykyään dataa on ja sitä syntyy jatkuvasti valtavia määriä eri organisaatioiden ja ihmisten toimesta – erityisesti tekstimuotoista dataa tarkastelemalla journalistit voivat löytää tietoa ja juttuaiheita. Datajournalismi on erikoistunut datan hyödyntämiseen journalistisissa tarkoituksissa.
Tässä opinnäytetyössä esitellään algoritmiin perustuva ohjaamaton koneoppimismenetelmä, aihemallinnus. Menetelmää voi käyttää suurten tekstiaineistojen tarkasteluun. Tutkimuksen pyrkimyksenä on selostaa menetelmän tausta ja käyttö sekä pohtia sen käyttömahdollisuuksia journalismin työkaluna.
Aihemallinnus havaitsee aineistosta piileviä rakenteita, joita kutsutaan aiheiksi. Aihemallinnus tarkastelee aineistoa sen tilastollisten ominaisuuksien kautta, havainnoiden aineiston dokumenteissa esiintyvien sanojen esiintymistiheyttä. Tuloksenaan aihemallinnus esittää sanalistoja eli ’aiheita’ sekä aiheiden jakautumia aineiston dokumenteissa. Aiheet ovat yhdessä esiintyvien sanojen joukkoja, jotka paljastavat, mistä aineistossa on kyse. Menetelmää voidaan käyttää ikään kuin esikatseluikkunana suureen aineistoon.
Aihemallinnus on teknisesti vaativa menetelmä ja sen käyttö edellyttää perehtyneisyyttä. Aihemallinnuksen tekijän on dokumentoitava työnsä vaiheet tarkasti ja kyettävä arvioimaan aihemallinnuksen laadukkuutta. Aihemallinnuksen tulokset ovat määrällistä tietoa ja niistä tulkintojen tekeminen vaatii menetelmän kautta saavutettujen havaintojen yhdistämistä laadulliseen analyysiin.
Aihemallinnusta on jo käytetty muun muassa puolueohjelmien, uutisartikkelien, twiittien ja laululyriikoiden tarkasteluun. Menetelmä on otettu ahkeraan käyttöön esimerkiksi yhteiskuntatieteissä, politiikan tutkimuksessa, lääketieteessä, psykologiassa ja informaatiotutkimuksessa.
Journalismissa aihemallinnusta voidaan käyttää valtavaan tekstiaineistoon tutustumisessa, tiedon haussa, aineistojen vertailussa ja menetelmän tuloksia voidaan visualisoida erilaisia muuttujia hyödyntäen. Aihemallinnuksen tuloksista ei ehkä yksinään riitä jutuksi, mutta niitä hyödyntäen journalisti voi tehdä sellaisia havaintoja, joita lähiluvussa ei ehkä huomattaisi ja kysyä journalistisesti mielenkiintoisia kysymyksiä.
Tässä opinnäytetyössä esitellään algoritmiin perustuva ohjaamaton koneoppimismenetelmä, aihemallinnus. Menetelmää voi käyttää suurten tekstiaineistojen tarkasteluun. Tutkimuksen pyrkimyksenä on selostaa menetelmän tausta ja käyttö sekä pohtia sen käyttömahdollisuuksia journalismin työkaluna.
Aihemallinnus havaitsee aineistosta piileviä rakenteita, joita kutsutaan aiheiksi. Aihemallinnus tarkastelee aineistoa sen tilastollisten ominaisuuksien kautta, havainnoiden aineiston dokumenteissa esiintyvien sanojen esiintymistiheyttä. Tuloksenaan aihemallinnus esittää sanalistoja eli ’aiheita’ sekä aiheiden jakautumia aineiston dokumenteissa. Aiheet ovat yhdessä esiintyvien sanojen joukkoja, jotka paljastavat, mistä aineistossa on kyse. Menetelmää voidaan käyttää ikään kuin esikatseluikkunana suureen aineistoon.
Aihemallinnus on teknisesti vaativa menetelmä ja sen käyttö edellyttää perehtyneisyyttä. Aihemallinnuksen tekijän on dokumentoitava työnsä vaiheet tarkasti ja kyettävä arvioimaan aihemallinnuksen laadukkuutta. Aihemallinnuksen tulokset ovat määrällistä tietoa ja niistä tulkintojen tekeminen vaatii menetelmän kautta saavutettujen havaintojen yhdistämistä laadulliseen analyysiin.
Aihemallinnusta on jo käytetty muun muassa puolueohjelmien, uutisartikkelien, twiittien ja laululyriikoiden tarkasteluun. Menetelmä on otettu ahkeraan käyttöön esimerkiksi yhteiskuntatieteissä, politiikan tutkimuksessa, lääketieteessä, psykologiassa ja informaatiotutkimuksessa.
Journalismissa aihemallinnusta voidaan käyttää valtavaan tekstiaineistoon tutustumisessa, tiedon haussa, aineistojen vertailussa ja menetelmän tuloksia voidaan visualisoida erilaisia muuttujia hyödyntäen. Aihemallinnuksen tuloksista ei ehkä yksinään riitä jutuksi, mutta niitä hyödyntäen journalisti voi tehdä sellaisia havaintoja, joita lähiluvussa ei ehkä huomattaisi ja kysyä journalistisesti mielenkiintoisia kysymyksiä.