„Sklizeň“ v hotelech.cz

Registr ubytovacích zařízení je základním kamenem ubytovací statistiky. Na konci roku 2017 statistici z oddělení cestovního ruchu poprvé použili web scraping pro aktualizaci registru. Přitom došli k zajímavým výsledkům.

V souvislosti s moderními metodami sběru statistických informací se často setkáváme s tzv. big daty. Jedním ze způsobů práce s velkými objemy dat z internetu je web scraping.
Internet obsahuje velké množství veřejně a zdarma dostupných dat. Ta jsou navržena ve struktuře a stylu internetových stránek a zpravidla nejsou ve formě databáze. Web scraping (jinak také web harvesting nebo web data extraction) je technika získávání dat z webových stránek. Proces extrakce probíhá strojově pomocí programovaných nástrojů (botů, crawlerů). Nástroj nahlédne do struktury stránek a „sklízí“ z nich informace.

Statistici se s hotely domlouvali v jazyce Python

Vhodným zdrojem dat se od začátku zdály být internetové stránky hotely.cz. Ty splňovaly nezbytné předpoklady – obsahovaly název a adresu ubytovacího zařízení, měly rozsáhlou databázi a podmínky jejich užití nezakazovaly techniky web scrapingu. Nevýhodou stránek byla absence některých údajů, například o kapacitách ubytovacích zařízení. Ty se musely následně dohledávat z jiných zdrojů.
Samotné tvorbě databáze předcházelo vytvoření skriptu pro získání dat ze stránek hotely.cz v jazyce Python. Skript prolistoval všechny stránky www seznamu ubytovacích zařízení a výsledek uložil do jednoho CSV souboru (pozn. red.: jednoduchý souborový formát určený pro výměnu tabulkových dat). Více než polovina ze 4 368 nalezených záznamů byla již v registru obsažena. Výsledkem důsledného porovnání obou datových zdrojů byl poté přírůstek 450 nově nalezených hromadných ubytovacích zařízení, což představovalo asi 4,5% nárůst.
Web scraping je pro účely aktualizace databáze hromadných ubytovacích zařízení velice vhodným nástrojem. Největší pracovní nasazení je však potřebné až v následující fázi, při tzv. data matchingu, kdy se spojují dvě různé databáze a rozhoduje se o přidání či nepřidání potenciálních zařízení do registru. Zde se ukázalo, že běžné nástroje jsou nedostačující. Proto byly jako doplněk využity pokročilejší funkce fuzzy textového párování, které jsou také používány například při zpracování výsledků sčítání lidu, domů a bytů.

získávání dat z webových stránek – web scraping

 

Více informací na www.czso.cz

Cestovní ruch