Latviešu valodas morfoloģijas definēšana meklēšanas sistēmai Sphinx
Autor
Mikeļevičs, Vitālijs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Nahimovs, Nikolajs
Datum
2013Metadata
Zur LanganzeigeZusammenfassung
Viens no pilnteksta meklēšanas pamatiem ir vārdu apstrādes algoritmi, kas atpazīst vārdu formas ar dažādām galotnēm, sufiksiem un prefiksiem, un indeksācijas laikā reducē tos līdz vienai formai, kura tiks izmantota indeksācijas un meklēšanas laikā. Tādi algoritmi tiek saukti par saknes atdalīšanas algoritmiem.
Darba ietvaros tika izpētīti vairāki saknes atdalīšanas algoritmu paveidi, izpētīts Portera algoritms, tā realizācija SNOWBALL programmēšanas valodā; izpētīts Kārļa Krēsliņa latviešu valodas sakņu atdalīšanas algoritms, realizēts SNOWBALL programmēšanas valodā, veiksmīgi pārbaudīts uz testu un reālu datu kopām, modificēts labākai darbībai priekš Sphinx meklēšanas sistēmas. Word processing algorithms are one of the fundamentals of full text search. They detect prefixes, suffixes and endings in different word forms and can be used to reduce a word form to its base one, which will be later used for indexing and searching. Such algorithms are called stemmers.
This paper discusses a number of stemming algorithms; one of them, the Porter algorithm, is studied in depth along with its implementation in the SNOWBALL programming language. Karlis Kreslins’ algorithm and its implementation in SNOWBALL are also discussed; the resulting algorithm was tested and modified for better operation with the Sphinx search engine.