Contexto
En cualquier programa relacional la calidad de datos uno de los principales retos. Los datos con el tiempo, si no se utilizan, tienden a deteriorarse. Para ello es fundamental implementar los mecanismos para mejorar la calidad de datos y poder medirla. En un mundo “customer-centric” donde las comunicaciones “off” son menos frecuentes y, el valor de la normalización reside sobre todo en:
– Validar la calidad de las arrobas vía procesos de double opt-in
– Coordenadas geográficas para poder posicionar a los clientes en mapas.
– Poder establecer lógicas ad-hoc de deduplicación y consolidación de datos a partir de un buen proceso de limpieza y normalización.
Limpieza de datos: Procesos relacionados con la eliminación de información irrelevante que solamente genera ruido (símbolos, outliers, espacios….).
Normalización de datos: Procesos relacionados con la “campificación” de la información origen y validación contra maestros de dominios de valores cerrados y expresiones regulares para los dominios abiertos.
Deduplicación de datos: Procesos relacionados con la identificación única de los individuos o empresas a partir de lógicas de priorización (fuente origen, recencia actualización…)
Consolidación de datos: Obtener la ficha única de individuo o empresa más completa y exacta de todos los considerados duplicados.
Problema
Históricamente los servicios de normalización se han concentrado en unas pocas empresas especializadas que, en muchos casos, solamente cubrían ciertos mercados. Esto se traducía en unos servicios caros a los cuales solamente podían acceder grandes compañías de los sectores de la banca, seguros, telecos…. y generaba gran dependencia debido a los costes de integración con estos servicios.
Nuestro cliente quería conocer alternativas al proveedor que en su momento le estaba dando el servicio de normalización para su base de datos de clientes.
Solución
Estuvimos investigando una alternativa a las herramientas conocidas de mercado hasta encontrar una muy buena solución a nivel de calidad-precio.
Para la normalización de direcciones desarrollamos unos procesos y lógicas de normalización a partir de la información ofrecida a través del servicio de Google Maps y la información procedente de Instituto Nacional de Estadística (INE). El proceso es el siguiente:
-
- ETL entrada de datos de direcciones, nombres, teléfonos, emails…
- Transformaciones para adaptar la información a la API de Google Maps y resto de dominios cerrados y abiertos
- Solicitud del servicio de Normalización de direcciones a Google Maps (Geolocation API)
- Obtención de datos de la dirección normalizada, así como las coordenadas geográficas.
- Validar y completar la salida de datos con la información ofrecida por el INE (datos censales)
- Salida final campificada de la dirección, nombres, arrobas, teléfonos
Para la deduplicación y consolidación de las fichas de clientes estudiamos cada fuente origen a nivel de calidad de datos y establecimos unos criterios de deduplicación a partir de los bloques de Nombre/Apellidos, Dirección, Email/Teléfono etc…
Resultados
– Ahorro de costes en un 85% para un nivel de calidad equivalente al ofrecido por la herramienta utilizada hasta el momento.
– Tiempos de proceso equivalentes a herramientas del mercado.
– Capacidad de normalización de direcciones de clientes de fuera de España.
– Tiempo de implementación fue de dos semanas.