Fundació La Caixa: obtención de datos vía open data y scraping

Problema

Conocer cómo impactan en el número de visitantes al museo la meteorología y las exposiciones y actividades de los principales museos competidores.

Solución

Automatizar el proceso con técnicas de scraping de las principales webs de museos del país y obtención de los datos meteorológicos de la AEMET.

Resultados

Disponer de datos para llevar a cabo los análisis y poder mejorar las propuestas.

Contexto

En cualquier sector conocer porqué hay más o menos tráfico de público a un punto de venta no no es tarea fácil. Normalmente, pensamos que depende de los productos ofrecidos, las campañas realizadas, el precio, la promoción del día… pero también hay otras variables que no están en nuestras manos como el calendario, la estacionalidad, la meteorología o la acción de la competencia. Fundació La Caixa se propuso incorporar en su modelo analítico los datos de las exposiciones y actividades ofrecidas por los museos de la competencia y los datos meteorológicos abiertos ofrecidos por la AEMET.

Opendata

AEMET OpenData es una API REST desarrollado por AEMET que permite la difusión y la reutilización de la información meteorológica y climatológica de la Agencia.

Scraping...

El web scraping se refiere al proceso de extracción de contenidos y datos de sitios web mediante software. Pudimos identificar un conjunto de datos comunes en todas las webs de los museos y que eran relevantes para el modelo analítico: Título y Subtítulo de la Exposición o Actividad, Fechas de inicio y fin, url web de la actividad/exposición.

Mensualmente, se ejecuta automáticamente el proceso y se pone a disposición del equipo de análisis.