• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • русский 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Войти
Просмотр элемента 
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
JavaScript is disabled for your browser. Some features of this site may not work without it.

Tīmekļa rasmošana

Thumbnail
Открыть
302-47777-Balodis_Martins_mb08098.pdf (1.128Mb)
Автор
Balodis, Mārtiņš
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Trukšāns, Leo
Дата
2015
Metadata
Показать полную информацию
Аннотации
Darbā ir apskatītas Tīmekļa rasmošanas (harvesting) problēmas, ar kurām saskārušās rasmošanas organizācijas, kā arī darba autors, veicot rasmošanas eksperimentus. Tiek aprakstīta hipotētiska uzlabota rasmošanas sistēma, kas varētu izvairīties no noskaidrotajām problēmām. Lietojot Hadoop skaitļošanas platformu, ir analizēti rasmotie dati un ir secināts, ka 67% no lejupielādētā satura satur dublējoša teksta lapas. Ir izstrādāts dublējošo saišu klasifikators, kas spēj klasificēt 80% no dublējošā satura saitēm. Heritrix rasmošanas robotam ir izveidots modulis efektīvākai oriģināla Tīmekļa satura lejupielādei, kas balstīts uz klasifikatora filtriem. Uz praktiski veikto eksperimentu bāzes ir konstatēts, ka izstrādātā risinājuma paredzēto dublējošā satura saišu skaits aug straujāk nekā turpmāk lejupielādējamo saišu skaits.
 
The paper describes problems encountered by web harvesting organizations and problems encountered by the author while using Heritix harvesting program. Based on these problems an improved hypothetical scraping system is described. Harvested data is analyzed in Hadoop computing platform. The analysis show that 67% of the harvested web pages contained duplicate data. A classification alogorithm is created that can classify 80% from these duplicate content sites. An URL filtering module is created for Heritrix crawler that uses filters created by the classifier. The experiments showed that classified duplicate link amount is growing faster than not yet downloaded link amount.
 
URI
https://dspace.lu.lv/dspace/handle/7/29482
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV
 

 

Просмотр

Весь DSpaceСообщества и коллекцииДата публикацииАвторыНазванияТематикаЭта коллекцияДата публикацииАвторыНазванияТематика

Моя учетная запись

Войти

Статистика

Просмотр статистики использования

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV