Show simple item record

dc.contributor.advisorTrukšāns, Leoen_US
dc.contributor.authorBalodis, Mārtiņšen_US
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāteen_US
dc.date.accessioned2015-07-06T01:08:11Z
dc.date.available2015-07-06T01:08:11Z
dc.date.issued2015en_US
dc.identifier.other47777en_US
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/29482
dc.description.abstractDarbā ir apskatītas Tīmekļa rasmošanas (harvesting) problēmas, ar kurām saskārušās rasmošanas organizācijas, kā arī darba autors, veicot rasmošanas eksperimentus. Tiek aprakstīta hipotētiska uzlabota rasmošanas sistēma, kas varētu izvairīties no noskaidrotajām problēmām. Lietojot Hadoop skaitļošanas platformu, ir analizēti rasmotie dati un ir secināts, ka 67% no lejupielādētā satura satur dublējoša teksta lapas. Ir izstrādāts dublējošo saišu klasifikators, kas spēj klasificēt 80% no dublējošā satura saitēm. Heritrix rasmošanas robotam ir izveidots modulis efektīvākai oriģināla Tīmekļa satura lejupielādei, kas balstīts uz klasifikatora filtriem. Uz praktiski veikto eksperimentu bāzes ir konstatēts, ka izstrādātā risinājuma paredzēto dublējošā satura saišu skaits aug straujāk nekā turpmāk lejupielādējamo saišu skaits.en_US
dc.description.abstractThe paper describes problems encountered by web harvesting organizations and problems encountered by the author while using Heritix harvesting program. Based on these problems an improved hypothetical scraping system is described. Harvested data is analyzed in Hadoop computing platform. The analysis show that 67% of the harvested web pages contained duplicate data. A classification alogorithm is created that can classify 80% from these duplicate content sites. An URL filtering module is created for Heritrix crawler that uses filters created by the classifier. The experiments showed that classified duplicate link amount is growing faster than not yet downloaded link amount.en_US
dc.language.isoN/Aen_US
dc.publisherLatvijas Universitāteen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectDatorzinātneen_US
dc.subjectdatizraceen_US
dc.subjectHadoopen_US
dc.subjectHeritrixen_US
dc.subjectrasmošanaen_US
dc.titleTīmekļa rasmošanaen_US
dc.title.alternativeWeb harvestingen_US
dc.typeinfo:eu-repo/semantics/masterThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record