Ahorra en la normalización de datos

Contexto

En cualquier programa relacional la calidad de datos uno de los principales retos. Los datos con el tiempo, si no se utilizan, tienden a deteriorarse. Para ello es fundamental implementar los mecanismos para mejorar la calidad de datos y poder medirla. En un mundo “customer-centric” donde las comunicaciones “off” son menos frecuentes y, el valor de la normalización reside sobre todo en:

– Validar la calidad de las arrobas vía procesos de double opt-in

– Coordenadas geográficas para poder posicionar a los clientes en mapas.

– Poder establecer lógicas ad-hoc de deduplicación y consolidación de datos a partir de un buen proceso de limpieza y normalización.

 

Limpieza de datos: Procesos relacionados con la eliminación de información irrelevante que solamente genera ruido (símbolos, outliers, espacios….).

Normalización de datos: Procesos relacionados con la “campificación” de la información origen y validación contra maestros de dominios de valores cerrados y expresiones regulares para los dominios abiertos.

Deduplicación de datos: Procesos relacionados con la identificación única de los individuos o empresas a partir de lógicas de priorización (fuente origen, recencia actualización…)

Consolidación de datos: Obtener la ficha única de individuo o empresa más completa y exacta de todos los considerados duplicados.

Problema

Históricamente los servicios de normalización se han concentrado en unas pocas empresas especializadas que, en muchos casos, solamente cubrían ciertos mercados. Esto se traducía en unos servicios caros a los cuales solamente podían acceder grandes compañías de los sectores de la banca, seguros, telecos….  y generaba gran dependencia debido a los costes de integración con estos servicios.

Nuestro cliente quería conocer alternativas al proveedor que en su momento le estaba dando el servicio de normalización para su base de datos de clientes.

Solución

Estuvimos investigando una alternativa a las herramientas conocidas de mercado hasta encontrar una muy buena solución a nivel de calidad-precio.

Para la normalización de direcciones desarrollamos unos procesos y lógicas de normalización a partir de la información ofrecida a través del servicio de Google Maps y la información procedente de Instituto Nacional de Estadística (INE). El proceso es el siguiente:

    1. ETL entrada de datos de direcciones, nombres, teléfonos, emails…
    2. Transformaciones para adaptar la información a la API de Google Maps y resto de dominios cerrados y abiertos
    3. Solicitud del servicio de Normalización de direcciones a Google Maps (Geolocation API)
    4. Obtención de datos de la dirección normalizada, así como las coordenadas geográficas.
    5. Validar y completar la salida de datos con la información ofrecida por el INE (datos censales)
    6. Salida final campificada de la dirección, nombres, arrobas, teléfonos

Para la deduplicación y consolidación de las fichas de clientes estudiamos cada fuente origen a nivel de calidad de datos y establecimos unos criterios de deduplicación a partir de los bloques de Nombre/Apellidos, Dirección, Email/Teléfono etc…

Resultados

– Ahorro de costes en un 85% para un nivel de calidad equivalente al ofrecido por la herramienta utilizada hasta el momento.

– Tiempos de proceso equivalentes a herramientas del mercado.

– Capacidad de normalización de direcciones de clientes de fuera de España.

– Tiempo de implementación fue de dos semanas.

Cultura de Datos

¿Por qué es importante que los equipos sepan cómo extraer valor de los datos?

No hay duda de los beneficios que puede aportar el análisis de los datos a los negocios: incremento de las ventas, fidelización de los clientes, mejora de la negociación con proveedores, lanzamiento de nuevos productos al mercado, apertura de nuevos puntos de venta, reducción de costes, entre muchos otros.

Pero cuando se trata de implementar un proyecto de Datos, muchas empresas están perdidas: ¿por dónde empiezo? ¿necesito perfiles especializados dentro de mi empresa? ¿contrato mejor una empresa externa que me ayude a empezar? ¿qué beneficios concretos me va a aportar el análisis de datos? ¿tengo la infraestructura tecnológica necesaria para desarrollar un proyecto de este tipo?

Muchas de estas preguntas las resolvemos en la consultoría en Análisis de Datos que ofrecemos, pero, además, creemos que otra de las vías para convertir la empresa en una organización que extrae valor de los datos, una data-driven company, es la formación de los equipos en Cultura de Datos (de la misma manera que se empezó a formar a los trabajadores en competencias digitales cuando irrumpió la transformación digital).

La primera pregunta que nos hacemos entonces es: ¿debemos formar a todo nuestro equipo o dejar que sean los científicos de datos quienes lleven la batuta a la hora de extraer valor de los datos?

Aunque nuestra organización ya disponga de un equipo de científicos de datos (y si no lo tienen), quien debe saber cómo estos datos pueden beneficiar al negocio son, precisamente, los responsables de negocio. Ellos conocen como nadie cuáles son las preguntas más críticas que necesitan resolver en su día a día y dónde están las áreas de mejora bajo su responsabilidad.

Para que sean capaces de identificar estos beneficios, es indispensable que conozcan qué puede hacer la analítica avanzada de datos y sepan cómo distribuir las tareas que pueden hacer las máquinas y aquellas en qué aportan valor los humanos.

Cómo responsables de equipo, debemos preparar a los trabajadores para el cambio continuo y mostrarles el valor que esperamos de ellos. La formación en Cultura de Datos que ofrecemos ayuda a estos responsables a proporcionar a sus equipos el conocimiento y las herramientas necesarias para identificar el valor que ofrecen los datos en sus tareas diarias y poder así iniciar proyectos de análisis de datos que aporten beneficios y ventajas competitivas a su organización.

No dudes en hablar con nosotros para conocer nuestro programa de formación.

Pasos de un proyecto de Análisis de Datos

Los proyectos de Análisis de Datos se estructuran en 5 etapas:

  • Estrategia: Entender el negocio y establecer las preguntas de negocio y datos disponibles para responderlas.
  • Datos: Captar y armonizar fuentes de datos de diferentes sistemas (transaccionales, social, web, opendata…).
  • Análisis: Encontrar patrones y modelos en la información (abandono, segmentación, correlaciones…).
  • Visualización: Mostrar los datos de manera que sean más interpretables (dashboards, reports, infografías, mapas…).
  • Acción: Utilizar los datos para tomar mejores decisiones, mejorar procesos o mejorar/crear productos y servicios basados en datos.

Estrategia

El punto de partida de un proyecto de datos es tener buena comprensión del modelo de negocio actual y visionar cómo nos gustaría que fuera. Podemos utilizar cualquier framework de desarrollo de modelos de negocio que nos ayude a reflexionar sobre nuestro negocio. Por ejemplo, podemos utilizar un modelo popular como “Lienzo de Generación de modelos de negocio” (Osterwalder, Yves Pigneur, Alan Smith) Canvas

Con las necesidades de los segmentos de clientes y la propuesta de valor en mente podemos empezar el proyecto de datos haciéndolos las preguntas de negocio a las cuales querríamos responder con un análisis de datos:

Preguntas de Clientes

  • ¿Qué clientes son leales y cuales han desertado?
  • ¿Factores de Lealtad?
  • ¿Valor de Vida de cada uno de los Clientes?
  • ¿A qué Segmento pertenece cada Cliente?
  • ¿Perfil de mis clientes?
  • ¿Previsión de la Demanda?
  • ¿…?

Preguntas de los Producto/Servicios/Propuestas de valor

  • ¿Qué precepción tienes nuestros clientes de nuestros productos/servicios?
  • ¿Qué productos recomendar a un cliente?
  • ¿Cómo es la cesta de la compra de un Cliente tipo?
  • ¿A qué precio, oferta debería aplicar a un producto/servicio?
  • ¿Cuál es el patrón de compra de un Cliente?
  • ¿…?

Preguntas de la relación con nuestros Clientes

  • ¿Cómo es el Ciclo de Vida/Compra de mis clientes?
  • ¿Cómo mejorar mi programa de captación?
  • ¿Cómo mejorar mi programa de fidelización?
  • ¿Cómo mejorar la prescripción?
  • ¿Qué tareas realizar desde central y cuáles desde las franquicias?

Preguntas de los Canales

  • ¿Resultados por canal a nivel de alcance, interacción…?
  • ¿Atribución de ventas a la estrategia de canales?
  • ¿Cuál es el rol a jugar por cada canal?
  • ¿Cómo mejorar la experiencia en el punto de venta o e-commerce?

Preguntas de los Recursos clave

  • ¿Ubicación óptima de nuestros puntos de venta?
  • ¿Cómo se relaciona nuestra organización?
  • ¿Previsión de fallos en una máquina o servicio?
  • ¿Comportamientos anómalos, fraude?
  • ¿Riesgo de un producto defectuoso?

Preguntas de las Actividades principales

  • ¿Cómo optimizar la cadena de suministros?
  • ¿Cómo minimizar desperdicios?
  • ¿Cómo optimizar rutas de reparto?
  • ¿Cuáles son nuestros mejores proveedores?
  • ¿Nivel de cumplimentación de los procesos establecidos?

Preguntas del mundo Financiero

  • ¿Cuánto debería invertir en cada cliente?
  • ¿Cómo distribuyo mi presupuesto de marketing/ventas?
  • ¿Fuentes generadoras de ingresos y costes?
  • ¿Cuál es el valor potencial de mi cartera de clientes
  • ¿Precio óptimo para maximizar rentabilidad a medio plazo?
  • ¿Qué servicios descontinuar para reducir costes?

Preguntas de la Competencia

  • ¿Qué precios está aplicando mi competencia?
  • ¿Densidad de competencia en una área geográfica?
  • ¿Estudio penetración/cuota de mercado?

Datos

Ahora tenemos que seleccionar los datos internos y externos que pensamos nos podrían ayudar a responder a las preguntas de negocio y establecer el proceso para poder trabajar con ellos:

Selección de datos

  • Internos: clientes, producto, precio, comunicaciones, transacciones, personal…
  • Externos: mercado, competencia, clima, festividades/eventos…

Obtención de datos

  • Procesos ETL (Extraction/Transformation/Loading)
  • API (Application Programming Interface)
  • Scraping (obtención datos procedentes de las webs)
  • Webservices
  • Formularios web

Preparación de datos

  • Auditoría de datos
  • Reglas de datos y transformaciones
  • Mapeo de fuentes y campos base de datos

Validación de datos

  • Limpieza
  • Normalización
  • Deduplicación
  • Consolidación

Inyección y almacenaje de datos

  • Modelización
  • Infraestructura
  • Procesos input/output

Análisis

A continuación desarrollaremos los modelos analíticos que nos den respuesta a las preguntas priorizadas:

Exploratorio

  • Estadísticas de resumen de las variables por tipo de datos
  • Distribuciones de variables por tipo de datos
  • Correlaciones y asociaciones importantes entre las variables.
  • Identificación de las variables relevantes.

Preparación

  • Eliminación de outliers
  • Transformación de los datos y creación de nuevas variables: normalización, categorización, índices, variables indicadoras, etc.
  • Selección de la muestra: Train (75%) y Test (25%)

Modelización

  • Segmentación & Perfil del Cliente
  • Valor de Vida de un Cliente
  • Deserción Cliente
  • Venta cruzada
  • Cesta de la compra
  • Recomendador de productos
  • Resultados Campañas
  • Modelo de Atribución
  • Test A/B

Visualización

Para facilitar la comprensión de los datos y los modelos analíticos tenemos que desarrollar herramientas de visualización

Definición

  • Usuarios y necesidades
  • Dimensiones de la información y KPIs
  • Funcionalidades (comparador, mapas, alertas, integración modelos, exportaciones…)
  • Estilo, parte gráfica
  • Modelo de datos

Inyección

  • Interfaces de datos al dashboard
  • Carga de datos
  • Error handling

Desarrollo

  • Dashboard de Contadores y Segmentaciones
  • Dashboard Resultados de Campañas
  • Dashboard Integral de Marketing
  • Dashboard Cesta Productos y Pricing
  • Dashboard Ventas
  • Dashboard Proveedores
  • Dashboard Mercado & Investigación
  • Dashboard Calidad datos

Acción

Finalmente, el proyecto de datos nos tiene que servir para llevar a cabo acciones que mejore nuestro negocio a nivel de:

  • Mejora la toma de decisiones de negocio
  • Mejorar los procesos actuales
  • Mejorar o crear productos/servicios basados en datos