Logging Web Behaviour for Association Rule Mining
Lilleberg, Ilkka (2015)
Lilleberg, Ilkka
Metropolia Ammattikorkeakoulu
2015
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2015112317244
https://urn.fi/URN:NBN:fi:amk-2015112317244
Tiivistelmä
Tämän työn tarkoitus on tutkia olemassa olevien WWW-sovellusten ja -palveluiden lokitietoja ja selvittää, miten niiden keräystä tulisi kehittää, jotta tiedonjalostamistekniikoilla saataisiin paras mahdollinen hyöty saatavilla olevasta datasta. Hyöty voi olla esimerkiksi tieto siitä, mitkä tapahtumat ennakoivat kiinnostusta ostaa tietyn ryhmän tuotteita verkkokaupasta.
Aineistot joita tutkitaan ovat Nasan verkkopalvelun palvelinlokidataa, Sonera Joulukampanja - palvelun palvelinlokidataa ja liandersson.fi-palvelun palvelinlokidataa. Palvelut liandersson.fi ja Sonera Joulukampanja on toteutettu Linux-, Apache- tai Nginx-, PHP- ja MySQL tekniikoilla.
Tässä työssä kehitetään tiedonjalostusympäristö, jolla assosiaatiosääntöanalyysiä käyttä-en pyritään jalostamaan tietoa WWW-palvelinten lokidatasta. Tässä tutkimuksessa selvitetään minkälaisia tuloksia erilaisella datalla saadaan ja miten hyödyllistä tietoa voitaisiin saada aikaan, mikäli lokien keräyksessä olisi paremmin otettu huomioon tiedon jalostamisen vaatimukset.
Tutkimuksen ensimmäisenä tavoitteena on luoda työkalut, joilla voi automatisoida valittujen lokitiedostojen analysoinnin ja luoda assosiaatiosääntöjä lokidatasta. Toisena tavoitteena on analysoida tämän tiedonlouhintaprosessin mahdollisuuksia tuotantopalvelimilta saamallamme datalla ja luoda lista ohjeita, joilla kehittää lokitietojen keräämistä.
Lisäksi tavoitteena on kehittää palvelinten lokien keräämistä ja siten mahdollistaa lokien sisältämän datan parempaa analysointia tulevaisuudessa. Tiedonjalostusympäristön kehityksen ohella työn keskeisiä tuloksia on ohjeistus, jonka avulla verkkopalvelun tuotantoon siirryttäessä voidaan ottaa paremmin analytiikan vaatimuksia huomioon.
Aineistot joita tutkitaan ovat Nasan verkkopalvelun palvelinlokidataa, Sonera Joulukampanja - palvelun palvelinlokidataa ja liandersson.fi-palvelun palvelinlokidataa. Palvelut liandersson.fi ja Sonera Joulukampanja on toteutettu Linux-, Apache- tai Nginx-, PHP- ja MySQL tekniikoilla.
Tässä työssä kehitetään tiedonjalostusympäristö, jolla assosiaatiosääntöanalyysiä käyttä-en pyritään jalostamaan tietoa WWW-palvelinten lokidatasta. Tässä tutkimuksessa selvitetään minkälaisia tuloksia erilaisella datalla saadaan ja miten hyödyllistä tietoa voitaisiin saada aikaan, mikäli lokien keräyksessä olisi paremmin otettu huomioon tiedon jalostamisen vaatimukset.
Tutkimuksen ensimmäisenä tavoitteena on luoda työkalut, joilla voi automatisoida valittujen lokitiedostojen analysoinnin ja luoda assosiaatiosääntöjä lokidatasta. Toisena tavoitteena on analysoida tämän tiedonlouhintaprosessin mahdollisuuksia tuotantopalvelimilta saamallamme datalla ja luoda lista ohjeita, joilla kehittää lokitietojen keräämistä.
Lisäksi tavoitteena on kehittää palvelinten lokien keräämistä ja siten mahdollistaa lokien sisältämän datan parempaa analysointia tulevaisuudessa. Tiedonjalostusympäristön kehityksen ohella työn keskeisiä tuloksia on ohjeistus, jonka avulla verkkopalvelun tuotantoon siirryttäessä voidaan ottaa paremmin analytiikan vaatimuksia huomioon.