• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • English 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Tīmekļa datu izguve un apstrāde

Thumbnail
View/Open
302-91882-Juskovs_Karlis_kj11074.pdf (1.445Mb)
Author
Juškovs, Kārlis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Rencis, Edgars
Date
2023
Metadata
Show full item record
Abstract
Darba mērķis ir apskatīt un saprast kā var automatizēt datu iegūšanu no tīmekļa vietnēm un veikt šo datu pēcapstrādi. Iegūstamie dati ir uzņēmumu kontaktinformācija, kas tiks iegūta no 3 Eiropā un pasaulē vadošiem elektropreču izplatītājiem. Vēlamais rezultāts būs šo kontaktinformāciju izgūt no noradītajām tīmekļa vietnēm, tos saglabāt un pēc tam veikt to apstrādi – filtrēt kontaktus (kas atkārtojas, kam nav telefona numurs vai e-pasta adrese) un sašķirot izfiltrētos kontaktus pa valstīm. Beigu rezultātā šiem datiem ir jābūt saglabātiem CSV formāta failos, lai varētu veikt vieglu eksportēšanu uz excel vai pasūtītāja Monitor G5 sistēmu. Darba pirmā posma realizēšanai tiks izmantota Node.js [1] bibliotēka Puppeteer [2], kas veiks datu izguvi. Datu pēcapstrādi paveiks PHP [3] veidota programma. Šī darba rezultātā tiks iegūts ieskats kā var veikt datu izguvi un apstrādi no tīmekļa vietnēm, kā arī izguves procesā tiks analizēts, vai šo procesu var kādā veidā apgrūtināt.
 
The aim of this paper is to understand how to automatize collecting and processing of web data. Information that will be collected is contact information, from 3 large electro product distributors (well known in Europe and rest of the world). Desired result will consist of - to collect contact information, afterwards to save it; to filter out duplicates or contacts without number or e- mail and to sort them all in respective countries folders. All of this must be saved in csv files, so that they could be easily exported to excel or Monitor G5 system for further processing. For the first part of paper, I will use Node.js [1] library Puppeteer [2], which will do the scraping and data collecting part, and PHP [3] for filtering and sorting. As a result of this project, an understand of how web data scraping and processing occurs, and additionally an insight could be gained to hinder it.
 
URI
https://dspace.lu.lv/dspace/handle/7/62568
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV