Tīmekļa lapu struktūras daļēji automatizēta analīze
Author
Blumbahs, Eduards
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Karnītis, Ģirts
Date
2011Metadata
Show full item recordAbstract
Internetā ļoti daudz informācijas ir pieejama daļēji strukturētu datu veidā – HTML kodējumā. Šis milzīgais informācijas apjoms ir un būs ļoti noderīgs gan parastajam interneta lietotājam, gan uzņēmumiem, sākot ar vienkāršu meklēšanu un beidzot ar rūpīgu analīzi. Lai to varētu izdarīt, šī informācija ir jāpārvērš strukturētos datos – tādos, kurus var apstrādāt datori.
Lai to izdarītu tiek piedāvātas dažādas metodes un rīki, kuri tiek apskatīti šajā darbā. Ar līdzīgu rīku, ar kuru iegūst informāciju no interneta lapām, strādā arī darba autors, kurš vēlas paātrināt savu darba gaitu, apskatot iespējamos risinājumus, kā paātrināt manuālo lapas HTML analīzi, padarot to par daļēji automātisku. A great deal of information available on the Internet is in the form of semi-structured data – the HTML coding. This huge amount of information is and will be very useful as for standard Internet users and for companies, starting from a single search and ending with a throughout analysis. To achieve this, information has to be transformed to structural data which can be processed by computers.
There are several methods and tools to perform this task, which are also discussed in this paper. Author also works with a similar tool, which extracts data from internet pages and he wants to speed up his work process by looking at possible solutions on how to speed up the manual HTML analysis by making it semi-automatic.