Tīmekļa rasmošana
Автор
Balodis, Mārtiņš
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Trukšāns, Leo
Дата
2015Metadata
Показать полную информациюАннотации
Darbā ir apskatītas Tīmekļa rasmošanas (harvesting) problēmas, ar kurām saskārušās
rasmošanas organizācijas, kā arī darba autors, veicot rasmošanas eksperimentus. Tiek aprakstīta
hipotētiska uzlabota rasmošanas sistēma, kas varētu izvairīties no noskaidrotajām problēmām.
Lietojot Hadoop skaitļošanas platformu, ir analizēti rasmotie dati un ir secināts, ka 67% no
lejupielādētā satura satur dublējoša teksta lapas. Ir izstrādāts dublējošo saišu klasifikators, kas
spēj klasificēt 80% no dublējošā satura saitēm. Heritrix rasmošanas robotam ir izveidots modulis
efektīvākai oriģināla Tīmekļa satura lejupielādei, kas balstīts uz klasifikatora filtriem. Uz
praktiski veikto eksperimentu bāzes ir konstatēts, ka izstrādātā risinājuma paredzēto dublējošā
satura saišu skaits aug straujāk nekā turpmāk lejupielādējamo saišu skaits. The paper describes problems encountered by web harvesting organizations and problems
encountered by the author while using Heritix harvesting program. Based on these problems
an improved hypothetical scraping system is described. Harvested data is analyzed in Hadoop
computing platform. The analysis show that 67% of the harvested web pages contained duplicate
data. A classification alogorithm is created that can classify 80% from these duplicate content
sites. An URL filtering module is created for Heritrix crawler that uses filters created by the
classifier. The experiments showed that classified duplicate link amount is growing faster than
not yet downloaded link amount.