Vietņu parsēšana
Парсинг – это процесс сбора данных (со своего собственного сайта, или noкрытых сайтов в Интернет), часто с последующей обрабnoкой этих данных и анализом. К этому способу прибегают, когда предстоит обрабnoать большой массив информации, с кnoорым сложно справиться вручную. Программа, кnoорая производит сбор и синтаксический анализ, называется парсер.
Tipisks satura parsēšanas piemērs ir kontaktu saraksta kopēšana no tīmekļa direktorijas. Tomēr datu iegūšana un saglabāšana no Web lapas Excel izklājlapā darbojas tikai ar nelielu datu daudzumu un prasa daudz laika. Lai apstrādātu lielu datu daudzumu, ir nepieciešama automatizācija. Un šeit ienāk tīmekļa parsētāji.
Tīmekļa parsētājs skenē Web lapas, lejupielādē saturu, no tā iegūst nepieciešamos datus un pēc tam saglabā tos failos vai datu bāzē.
Parsēšana nav tas pats, kas API. Piemēram, uzņēmums var atvērt piekļuvi API, lai citas sistēmas varētu mijiedarboties ar tās datiem; tomēr caur API pieejamo datu kvalitāte un kvantitāte parasti ir zemāka, nekā to var iegūt, analizējot. Turklāt parsēšana sniedz atbilstošāku informāciju, nevis izmantojot API, un to ir daudz vieglāk konfigurēt no struktūras viedokļa.
Kāpēc tiek izmantota vietnes parsēšana?
Vietņu parsēšanu var izmantot, lai automatizētu visu veidu datu vākšanas uzdevumus. Tīmekļa parsētāji kopā ar citām programmām var darīt gandrīz visu to pašu, ko cilvēks pārlūkā un daudz ko citu. Viņi var automātiski pasūtīt jūsu iecienītāko ēdienu, iegādāties koncertu biļetes, tiklīdz tie kļūst pieejami, periodiski skenēt e-komercijas vietnes un sūtīt jums īsziņas, kad pazeminās jūs interesējošā produkta cena utt.
Parsēšanas likumība
Informācija, kas ievietota publiski pieejamās interneta vietnēs, ir publiski pieejama, kā Nav tiesību aktu, kas ierobežo piekļuvi šādai informācijai. Šajā sakarā veikalā nav aizliegts pārrakstīt un atsaukt cenas un citu informāciju.
Vietņu parsēšana ir likumīga, ja tā īstenošanas laikā netiek pārkāpti likumā noteiktie aizliegumi. Tādējādi, automatizējot informācijas vākšanu, ir jāievēro piemērojamie tiesību akti.
Galvenie ierobežojumi, kas jāpatur prātā:
- Netiek pārkāpts autortiesības un blakustiesības.
- Nav atļauta neatļauta piekļuve likumīgi aizsargātai datora informācijai.
- Nav atļauts nelegāli vākt informāciju, kas veido komercnoslēpumu.
- Не допускается заведомо недобросовестное осуществление гражданских прав (злоупnoребление правом).
- Civiltiesību izmantošana konkurences ierobežošanai nav atļauta.
No iepriekšminētajiem aizliegumiem izriet, ka organizācijai ir tiesības veikt automatizētu informācijas vākšanu (vietņu parsēšanu), kas publiski pieejama tīmekļa vietnēs internetā, ja ir izpildīti šādi nosacījumi:
- Informācija ir publiski pieejama, un to neaizsargā autortiesību un blakustiesību likumi.
- Automatizētā savākšana tiek veikta ar likumīgiem līdzekļiem.
- Automatizēta informācijas vākšana neizraisa traucējumus vietņu darbībā internetā.
- Automatizēta informācijas vākšana neierobežo konkurenci.
Tādējādi galvenie ieteikumi, kas jāievēro, ja tiek izmantota parsēšana:
- Atjaunojamo saturu nedrīkst aizsargāt ar autortiesībām.
- Parsēšanas procesam nevajadzētu traucēt vietnes, kas tiek parsēta, darbībai.
- Parsēšana nedrīkst pārkāpt vietnes lietošanas noteikumus
- Парсер не должен извлекать личную (персональную) информацию пользователя
- Parsētajam saturam jāatbilst godīgas lietošanas standartiem
Mūsu uzņēmuma parsētājs darbojas vienas vītnes režīmā, neradot būtisku slodzi vietnē un seko faila robots.txt norādījumiem, kas izslēdz iespēju lejupielādēt sensitīvu informāciju.
Parsēšanas rezultāti tiek izkrauti jebkurā jums ērtā formātā: Microsoft Excel (.xlsx), norobežots fails (.csv), fails XML (.xml), Microsoft Access DB (.accdb), SQL, NoSQL.