Acofarma: identificació mercat potencial

Problema

Identificar entre cent mil registres als mateixos negocis quan no tenen exactament la mateixa informació.

Solució

Procés de normalització d’adreces amb Google Platform i deduplicació fent servir diferents criteris de puntuació per obtenir candidats iguals.

Resultats

El 98% dels registres s’identifiquen amb els seus iguals i un 2% s’han de revisar manualment i prendre la decisió final. Estalvi en temps i millors resultats.

Context

Conéixer la penetració de mercat d’una companyia quan no hi ha un panell que ens ajudi a calcular-la és complicat. En un negoci B2B necessitem tenir una base de dades de tots els negocis del mercat en qüestió i, per altra banda, tenir una relació de tots els clients. Com deduplicar clients iguals de diversos fitxers, quan la informació identificativa (NIF, adreces, telèfons, email…) dels clients és diferent i de diferent qualitat?

Procés per obtenir els candidats a iguals

Input

Partim de vuit fitxers interns i externs (referent), amb informació de farmàcies. Auditem cada fitxer (descriptius camps/valors) i mapegem els camps entre els fitxers. Seleccionem els camps que utilitzarem per trobar els candidats a iguals: adreces, nif, email i telèfon. Sabem que els fitxers tenen certes inconsistències entre els quatre camps identificatius.

Processos Normalització, Deduplicació i Enriquiment

Identifiquem l’origen de cada registre i preparem el fitxer per normalitzar les adreces fent servir el servei de Google Maps Platform. Al fitxer resultant obtenim registres amb adreces normalitzades i geo-coordenades. No tots els registres s’han pogut normalitzar a causa de les adreces antigues, parcials o mal escrites.

A continuació, creuem els fitxers interns contra els fitxers externs referents i obtenim una puntuació per a cada registre, segons els criteris següents:

Geo-coordenades iguals: 10 punts
Distància <32 mtrs.: 3 punts
Distància noms: 3 punts
Distància adreces norm.: 3 punts
Mateix NIF: 4 punts
Mateix Telèfon: 3 punts
Mateix Email: 3 punts

Tot i identificar un alt percentatge de registres com a candidats iguals o amb altes possibilitats, encara ens queda un volum de registres massa alt per a la revisió manual. Preparem un nou fitxer amb aquests registres i aquest cop utilitzem el servei de Google Places. El cost per registre del servei és més alt, però ens proporciona més detalls que ens ajudaran a refinar la puntuació inicial:

Detalls d’ubicació: Adreces precises, coordenades GPS, ubicació a mapes, i fotos de llocs específics.
Horaris: Horaris d’obertura i tancament, horaris especials (si n’hi ha) i dies de funcionament.
Opinions i ressenyes: Comentaris d’usuaris sobre el lloc, qualificacions i experiències personals que poden ajudar altres usuaris a prendre decisions informades.
Informació addicional: Podeu incloure dades com el tipus de negoci (restaurant, hotel, museu, etc.), números de contacte, llocs web, i qualsevol informació rellevant addicional que pugui ser útil per als que busquen informació sobre aquest lloc específic.

Output

Finalment, ja tenim identificades les mateixes farmàcies en un fitxer inicial del voltant de cent mil registres. L’equip de vendes només haurà de repassar i decidir sobre un volum de registres inferior al 2%.