Automatizēta semistrukturētas informācijas atlase un analīze no WWW lapām
Jirgens, Krists
Latvijas Universitāte. Fizikas un matemātikas fakultāte
Karnītis, Ģirts
Vairums mūsdienu cilvēku, ja rodas nepieciešamība noskaidrot kādu specifisku informāciju, atbildes mēģina atrast internetā. Tomēr formāta dēļ, kādā lielākā daļa šo datu glabājas, meklēšana un konkrētu datu atlase ir nopietna problēma.
Šī darba mērķi ir apkopot informāciju par esošajām datu meklēšanas, atlases un analīzes metodēm, noskaidrot problēmas un kavēkļus datu atlases rīku veidošanā un mēģināt rast to risinājumus. Darba gaitā ir izstrādāts veids, kā ar īpašu veidņu palīdzību aprakstīt mērķa portāla struktūru. Ir izveidota universāla programma, kas spēj atlasīt datus no jebkurām ar veidnēm aprakstītām semistrukturētām WWW lapām. When there is a necessity for some specific information, most of modern people try to find their answers on internet. But because of the format, the data is stored in, the search process and gathering of data is a serious problem.
The aim of this paper is to collect information about methods of data searching, gathering and analysis, to understand problems of creating a data gathering tool and to find some solutions. This paper presents an interesting solution how to describe the structure of a target website with a template. A universal program has been created; it can gather data from any semistructured WWW pages, described by a template.