Tīmekļa datu izguve un apstrāde

dc.contributor.advisorRencis, Edgars
dc.contributor.authorJuškovs, Kārlis
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2023-09-04T09:12:51Z
dc.date.accessioned2025-07-23T00:48:13Z
dc.date.available2023-09-04T09:12:51Z
dc.date.issued2023
dc.description.abstractDarba mērķis ir apskatīt un saprast kā var automatizēt datu iegūšanu no tīmekļa vietnēm un veikt šo datu pēcapstrādi. Iegūstamie dati ir uzņēmumu kontaktinformācija, kas tiks iegūta no 3 Eiropā un pasaulē vadošiem elektropreču izplatītājiem. Vēlamais rezultāts būs šo kontaktinformāciju izgūt no noradītajām tīmekļa vietnēm, tos saglabāt un pēc tam veikt to apstrādi – filtrēt kontaktus (kas atkārtojas, kam nav telefona numurs vai e-pasta adrese) un sašķirot izfiltrētos kontaktus pa valstīm. Beigu rezultātā šiem datiem ir jābūt saglabātiem CSV formāta failos, lai varētu veikt vieglu eksportēšanu uz excel vai pasūtītāja Monitor G5 sistēmu. Darba pirmā posma realizēšanai tiks izmantota Node.js [1] bibliotēka Puppeteer [2], kas veiks datu izguvi. Datu pēcapstrādi paveiks PHP [3] veidota programma. Šī darba rezultātā tiks iegūts ieskats kā var veikt datu izguvi un apstrādi no tīmekļa vietnēm, kā arī izguves procesā tiks analizēts, vai šo procesu var kādā veidā apgrūtināt.
dc.description.abstractThe aim of this paper is to understand how to automatize collecting and processing of web data. Information that will be collected is contact information, from 3 large electro product distributors (well known in Europe and rest of the world). Desired result will consist of - to collect contact information, afterwards to save it; to filter out duplicates or contacts without number or e- mail and to sort them all in respective countries folders. All of this must be saved in csv files, so that they could be easily exported to excel or Monitor G5 system for further processing. For the first part of paper, I will use Node.js [1] library Puppeteer [2], which will do the scraping and data collecting part, and PHP [3] for filtering and sorting. As a result of this project, an understand of how web data scraping and processing occurs, and additionally an insight could be gained to hinder it.
dc.identifier.other91882
dc.identifier.urihttps://dspace.lu.lv/handle/7/62568
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectizguve
dc.subjectPuppeteer
dc.subjectfiltrēšana
dc.subjectapstrāde
dc.subjectprogramma
dc.titleTīmekļa datu izguve un apstrāde
dc.title.alternativeWeb data collection and processing
dc.typeinfo:eu-repo/semantics/bachelorThesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
302-91882-Juskovs_Karlis_kj11074.pdf
Size:
1.45 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.46 KB
Format:
Plain Text
Description: