JULKAISUJÄRJESTELMÄN HAKUTOIMINNON KEHITTÄMINEN
Savushkin, Pavel (2013)
Savushkin, Pavel
Kymenlaakson ammattikorkeakoulu
2013
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201304184561
https://urn.fi/URN:NBN:fi:amk-201304184561
Tiivistelmä
Tietojen haku Internetistä tulee päivä päivältä tärkeämmäksi. Internetiin tulee teratavuja tietoa joka päivä ja niiden tehokas hakumahdollisuus on erittäin tärkeää. On olemassa hakukoneita, jotka käyvät koko verkon läpi ja tallentavat tietoa sivujen sisällöistä tietokantaansa. Sitä kutsutaan indeksoinniksi. Lisäksi on sellaisia hakukoneita, jotka toimivat ja tekevät hakuja sivuston sisältä. Nykyaikana melkein jokaisella yhtiöllä on oma sivustonsa, josta löytyy erilaisia tietoja. Sivusto ei voi olla täydellinen, jos sieltä puuttuu hakukone.
Työn tavoitteena oli kehittää ID Partners OY yhtiölle, joka myy web-sivustoja, oma hakukone, joka sitten integroidaan lopputuotteeseen. Sovellus toteutettiin PHP-ohjelmointikielellä Eclipse-ohjelmointiympäristössä. Sanojen käsittelemiseen käytettiin Porterin stem -algoritmia. Projektiin suunniteltiin luokat ja metodit ArgoUML-ohjelmalla. Tietokantojen suunnittelu tehtiin MySQL-WorkBench työkalulla ja niiden täyttäminen MySQL-relaatiotietokantaohjelmistolla. Indeksointialgoritmi pohjautuu Appache Lucene -tekstihaun ilmaiseen kirjastoon.
Lopputuloksena saatiin toimiva sovellus, joka käsittelee asiakirjan tekstiä ja indeksoi tekstin tallentamalla sanoja tietokantoihin. Varsinainen tietojen haku tapahtuu kyseisten tietokantojen kautta. Sovellus integroidaan osaksi web-sivustoa.
Työn tavoitteena oli kehittää ID Partners OY yhtiölle, joka myy web-sivustoja, oma hakukone, joka sitten integroidaan lopputuotteeseen. Sovellus toteutettiin PHP-ohjelmointikielellä Eclipse-ohjelmointiympäristössä. Sanojen käsittelemiseen käytettiin Porterin stem -algoritmia. Projektiin suunniteltiin luokat ja metodit ArgoUML-ohjelmalla. Tietokantojen suunnittelu tehtiin MySQL-WorkBench työkalulla ja niiden täyttäminen MySQL-relaatiotietokantaohjelmistolla. Indeksointialgoritmi pohjautuu Appache Lucene -tekstihaun ilmaiseen kirjastoon.
Lopputuloksena saatiin toimiva sovellus, joka käsittelee asiakirjan tekstiä ja indeksoi tekstin tallentamalla sanoja tietokantoihin. Varsinainen tietojen haku tapahtuu kyseisten tietokantojen kautta. Sovellus integroidaan osaksi web-sivustoa.