Acofarma: identificación mercado potencial

Problema

Identificar entre cien mil registros a los mismos negocios cuando no tienen exactamente la misma información.

Solución

Proceso de normalización de direcciones con Google Platform y deduplicación utilizando diferentes criterios de puntuación para obtener candidatos iguales.

Resultados

El 98% de los registros se identifican con sus iguales y un 2% se debe revisar manualmente y tomar la decisión final. Ahorro en tiempo y mejores resultados.

Contexto

Conocer la penetración de mercado de una compañía cuando no hay un panel que nos ayude a calcularla es complicado. En un negocio B2B necesitamos tener una base de datos de todos los negocios del mercado en cuestión y, por otro lado, tener una relación de todos los clientes. ¿Cómo deduplicar a clientes iguales de diversos ficheros, cuando la información identificativa (NIF, direcciones, teléfonos, email…) de los clientes es distinta y de distinta calidad?

Proceso para obtener los candidatos a iguales

Input

Partimos de ocho ficheros internos y externos (referente), con información de farmacias. Auditamos cada fichero (descriptivos campos/valores) y mapeamos los campos entre los ficheros. Seleccionamos los campos que vamos a utilizar para encontrar los candidatos a iguales: direcciones, nif, email y teléfono. Sabemos que los ficheros tienen ciertas inconsistencias entre los cuatro campos identificativos.

Procesos Normalización, Deduplicación y Enriquecimiento

Identificamos el origen de cada registro y preparamos el fichero para normalizar las direcciones utilizando el servicio de Google Maps Platform. En el fichero resultante obtenemos registros con direcciones normalizadas y geo-coordenadas. No todos los registros se han podido normalizar debido a direcciones antiguas, parciales o mal escritas.

A continuación, cruzamos los ficheros internos contra los ficheros externos referentes y obtenemos una puntuación para cada registro, según los siguientes criterios:

Geo-coordenadas iguales: 10 puntos
Distancia <32 mtrs.: 3 puntos
Distancia nombres: 3 puntos
Distancia direcciones norm.: 3 puntos
Mismo NIF: 4 puntos
Mismo Teléfono: 3 puntos
Mismo Email: 3 puntos

A pesar de identificar a un alto porcentaje de registros como candidatos iguales o con altas posibilidades, aún nos queda un volumen de registros demasiado alto para la revisión manual. Preparamos un nuevo fichero con estos registros y esta vez utilizamos el servicio de Google Places. El coste por registro del servicio es más alto, pero nos proporciona más detalles que nos ayudará a refinar la puntuación inicial:

  • Detalles de ubicación: Direcciones precisas, coordenadas GPS, ubicación en mapas, y fotos de lugares específicos.
  • Horarios: Horarios de apertura y cierre, horarios especiales (si los hay), y días de funcionamiento.
  • Opiniones y reseñas: Comentarios de usuarios sobre el lugar, calificaciones, y experiencias personales que pueden ayudar a otros usuarios a tomar decisiones informadas.
  • Información adicional: Puede incluir datos como el tipo de negocio (restaurante, hotel, museo, etc.), números de contacto, sitios web, y cualquier información relevante adicional que pueda ser útil para quienes buscan información sobre ese lugar específico.
Output
 
Finalmente, ya tenemos identificadas a las mismas farmacias en un fichero inicial de alrededor cien mil registros. El equipo de ventas solamente deberá repasar y decidir sobre un volumen de registros inferior al 2%.