Fundació La Caixa: obtenció de dades via open data i scraping

Problema

Conèixer com impacten en el nombre de visitants al museu la meteorologia i les exposicions i les activitats dels principals museus competidors.

Solució

Automatitzar el procés amb tècniques de scraping de les principals webs de museus del país i obtenció de les dades meteorològiques de l’AEMET.

Resultats

Disposar de dades per fer les anàlisis i poder millorar les propostes.

Context

En qualsevol sector conèixer perquè hi ha més o menys trànsit de públic a un punt de venda no és una tasca fàcil. Normalment, pensem que depèn dels productes oferts, les campanyes realitzades, el preu, la promoció del dia… però també hi ha altres variables que no són a les nostres mans com el calendari, l’estacionalitat, la meteorologia o l’acció de la competència . Fundació La Caixa es va proposar incorporar al seu model analític les dades de les exposicions i activitats ofertes pels museus de la competència i les dades meteorològiques obertes ofertes per l’AEMET.

Opendata

AEMET OpenData és una API REST desenvolupada per AEMET que permet la difusió i reutilització de la informació meteorològica i climatològica de l’Agència.

Scraping...

El web scraping es refereix al procés dextracció de continguts i dades de llocs web mitjançant programari. Vam poder identificar un conjunt de dades comunes a totes les webs dels museus i que eren rellevants per al model analític: Títol i Subtítol de l’Exposició o Activitat, Data d’inici i fi, url web de l’activitat/exposició.

Mensualment, el procés s’executa automàticament i es posa a disposició de l’equip d’anàlisi.