Strukturētu datu iegūšana no tīmekļa un to apkopošana
Author
Irmejs, Aivars
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Arnicāns, Guntis
Date
2011Metadata
Show full item recordAbstract
Internetā kopumā ir pieejams liels informācijas apjoms, taču bieži vien vajadzīgā informācija ir sadalīta starp vairākām vietnēm pat viena veida datiem, kas sarežģī informācijas meklēšanu un analīzi. Šo problēmu risina, veidojot informācijas sistēmas, kuras iegūst un apkopo tīmeklī publicētos datus. Datu iegūšanas procesu apgrūtina atšķirības starp dažādām tīmekļa vietnēm un veidiem, kādā tās strukturē datus, kā arī šo struktūru nenoteiktība un nepastāvība.
Šajā darbā pētītas kopējās problēmas, kas rodas, veidojot informācijas sistēmu datu iegūšanai no tīmekļa, kā arī prezentēta autora izveidota sistēma, kas apkopo dažādās interneta vietnēs publicētus Lielbritānijas komerciālā rakstura nekustamā īpašuma sludinājumus kopējā datu bāzē, un demonstrētas metodes, ar kurām apskatītās problēmas risinātas izveidotajā sistēmā. The internet provides with a large amount of information but the necessary information is often scattered among several sites even for the same type of data, which complicates search and analysis. This problem can be solved by creating information systems which acquire and aggregate data from the Web. The process of acquiring data can be difficult due to differences between various internet sites and the way they structure data, as well as the uncertainty and inconstancy of these structures.
This thesis studies the overall issues which occur when creating information system for acquiring data from the Web, and presents a system created by the author which aggregates UK commercial real estate advertisements from various internet sites. This thesis also includes a demonstration of methods which have been used to resolve the issues mentioned.