„Sklizeň“ v hotelech.cz

VYDÁNÍ: 05/2018
sdílejte na Facebooku sdílejte na Twitteru pošlete e-mailem sdílejte

Registr ubytovacích zařízení je základním kamenem ubytovací statistiky. Na konci roku 2017 statistici z oddělení cestovního ruchu poprvé použili web scraping pro aktualizaci registru. Přitom došli k zajímavým výsledkům.

V souvislosti s moderními metodami sběru statistických informací se často setkáváme s tzv. big daty. Jedním ze způsobů práce s velkými objemy dat z internetu je web scraping.
Internet obsahuje velké množství veřejně a zdarma dostupných dat. Ta jsou navržena ve struktuře a stylu internetových stránek a zpravidla nejsou ve formě databáze. Web scraping (jinak také web harvesting nebo web data extraction) je technika získávání dat z webových stránek. Proces extrakce probíhá strojově pomocí programovaných nástrojů (botů, crawlerů). Nástroj nahlédne do struktury stránek a „sklízí“ z nich informace.

Statistici se s hotely domlouvali v jazyce Python

Vhodným zdrojem dat se od začátku zdály být internetové stránky hotely.cz. Ty splňovaly nezbytné předpoklady – obsahovaly název a adresu ubytovacího zařízení, měly rozsáhlou databázi a podmínky jejich užití nezakazovaly techniky web scrapingu. Nevýhodou stránek byla absence některých údajů, například o kapacitách ubytovacích zařízení. Ty se musely následně dohledávat z jiných zdrojů.
Samotné tvorbě databáze předcházelo vytvoření skriptu pro získání dat ze stránek hotely.cz v jazyce Python. Skript prolistoval všechny stránky www seznamu ubytovacích zařízení a výsledek uložil do jednoho CSV souboru (pozn. red.: jednoduchý souborový formát určený pro výměnu tabulkových dat). Více než polovina ze 4 368 nalezených záznamů byla již v registru obsažena. Výsledkem důsledného porovnání obou datových zdrojů byl poté přírůstek 450 nově nalezených hromadných ubytovacích zařízení, což představovalo asi 4,5% nárůst.
Web scraping je pro účely aktualizace databáze hromadných ubytovacích zařízení velice vhodným nástrojem. Největší pracovní nasazení je však potřebné až v následující fázi, při tzv. data matchingu, kdy se spojují dvě různé databáze a rozhoduje se o přidání či nepřidání potenciálních zařízení do registru. Zde se ukázalo, že běžné nástroje jsou nedostačující. Proto byly jako doplněk využity pokročilejší funkce fuzzy textového párování, které jsou také používány například při zpracování výsledků sčítání lidu, domů a bytů.

získávání dat z webových stránek – web scraping

 

Zatím zde není žádný komentář.

Související články

 

Web scraping ve statistice z pohledu Evropské unie

Stále častěji se statistické úřady ohlížejí po jiných možnostech získávání informací, než jsou standardní statistická zjišťování. Jednou z možností je také využití tzv. big dat a metody web scrapingu.

Více než milion Čechů nakupuje v zahraničních e-shopech

ilustrativní fotka

Letos on-line nakoupilo 54 % obyvatel ČR starších 16 let, tj. více než 4,7 mil. osob. Nejčastěji nakupovali od prodejců z ČR. V posledních letech ale přibývá nákupů od prodejců ze zahraničí.

Proč Češi rádi cestují?

ilustrativní fotka

Na otázku, proč je pro obyvatele České republiky tak atraktivní cestovat, jsme se zeptali odborníků, kteří cestovní ruch pravidelně sledují. „Naše láska k turismu vychází určitě z naší historie a především z geografické polohy,“ řekl jeden z nich.

Návštěvnost Česka vloni lámala rekordy

ilustrativní fotka

Ubytovací statistika zaznamenala loni rekordní počty příjezdů a přenocování v hromadných ubytovacích zařízeních. Návštěvnost poprvé překročila hranici 20 mil. příjezdů a počet přenocování dosáhl 53 milionů nocí. V relativním vyjádření se počet hostů meziročně zvýšil o 8,8 % a počet přenocování o 7,1 %.

Ekonomika cestovního ruchu

ilustrativní obrázek

Cestovní ruch je na národní i regionální úrovni významnou ekonomickou činností. V roce 2016 dosáhla přidaná hodnota v tomto odvětví 121 mld. Kč, meziročně o desetinu více.

Zpátky do Egypta

ilustrativní fotka

Zájem Čechů o zahraniční dovolené byl v roce 2017 rekordní. Nejoblíbenějšími cizími zeměmi zůstaly Chorvatsko, Slovensko a Itálie. Čeští turisté znovu začali létat do Egypta.

Dokážeme změřit turistu?

ilustrativní fotka

Cestovní ruch je globální prostorový jev. Zjistit počty turistů proto není jednoduché. Cílem statistiků je harmonizovat metodické rozdíly a směrem k uživatelům trpělivě vysvětlovat jejich úskalí.

V Česku roste zájem o ubytování v hotelech

ilustrativní fotka

Evropská ubytovací statistika vykázala ve 3. čtvrtletí loňského roku zvýšený zájem o ubytování. Počet přenocování v hromadných ubytovacích zařízeních se meziročně zvýšil o 3,2 %.

Big data v cestovním ruchu

Ing. Ondřej Vozár

Narůstající počet elektronických zařízení vytváří velký objem dat. Jejich charakteristickými rysy jsou objem, rychlost a různorodost. Kromě komerčního využití jsou tato tzv. big data zajímavá i pro oficiální statistiku.

Popularita Česka u zahraničních návštěvníků roste

ilustrační foto

V roce 2016 zavítalo do Česka 31,1 mil. zahraničních návštěvníků. Většina z nich (16,2 mil.) přijela na den. Turisté se na celkovém počtu podíleli 39 % a 8 % připadlo
na tranzitující návštěvníky.

Největší příjmy z cestovního ruchu mají Spojené státy

ilustrativní fotka

Díky potřebě lidí poznávat nové země činily denní výnosy z cestovního ruchu na Zemi v roce 2015 čtyři miliardy dolarů. Nejvíce příjmů dlouhodobě získávají Spojené státy americké. Ve výdajích na cestování zase dominuje od roku 2012 Čína.

V roce 2016 jsme více cestovali po naší vlasti

ilustrativní fotka

Oproti předcházejícím letům Češi vloni cestovali častěji, a to hlavně po naší republice. Jejich cílem byly mnohdy návštěvy příbuzných nebo známých, kde i přespávali.