Join Now

Juletip # 4 Berig og standardiser kundens adresser - generisk

by SAS Employee RuneNordtorp on ‎12-04-2014 03:42 AM (342 Views)

Juletip # 4

Tidligere på ugen stødte jeg på dette rigtig gode spørgsmål på DataFlux-mailinglisten. For jer, som ikke kender listen, omhandler det primært data management-relaterede områder.

Mailen lyder:

”Hi,

A customer wants to do the following with DataFlux for global addresses:

  1. Verify addresses
  2. Standardize addresses
  3. Parse out Zip-code from an address string
  4. Enrich address with Zip-code if it’s missing”

Tænk engang, hvis det var muligt at standardisere sine kundedata, berige data og verificere, at disse faktisk er sande. Vel at mærke uden at skulle bruge flere mandeår og egenudviklede løsninger for at nå dette mål.

Og det kan vi faktisk:

Ad 1) Verificering af adresser som f.eks. adresser angivet i en kundes database. En opgave vel at mærke, som kan være besværlig, hvis man har med et multinationalt selskab at gøre, hvor virksomhedens kunder er spredt ud over flere regioner.

I DataFlux løser vi dette med brugen af Address Verification:

Kigger man tættere på, kan man se muligheden for at vælge radio button Guess altså at bruge DataFlux QKB til at gætte sig til resultatet. I nedenstående eksempel benyttes de nordamerikanske lande, men der findes også noder, som gør det samme for andre dele af verden.

Ad 2-3) Standardisere adresser, så alle adresser er angivet på samme måde. Endvidere udskille postnummeret i sin egen kolonne, uanset om det er fritekstfeltet, adressen er skrevet ind i.

I DataFlux gøres dette ad to omgange:

  1. Først opsplittes fritekstfeltet i mindre dele, så vores fritekstkolonne STREET_ADDR nu kan opdeles i eksempelvis Street Number eller Extension. Det er muligt at opsplitte alle tokens, der er listet under ’Available’ (se nedenfor). Logikken bag opsplitningen og hvilke dele af fritekstfeltet, der skal ind hvor, bliver styret af vores QKB. (Per default er den rimelig god til det).

Et andet eksempel kunne være Postal_CD eller Zip code, som spørgsmålet i mailen går på.

b. Hernæst kigges efter mønstre for at eliminere samme typer af navne. Eksempelvis i tilfælde af slåfejl, forskellige måder at skrive samme ting på, forkortelser osv. Hvor meget fleksibilitet, der skal tillades i mønstrene, angives som sensitivitet som vist       nedenfor.

Samlet set sikrer dette, at vi kommer rigtig langt – rent automatisk uden forretningsviden inde over.

Ad 4) Finde postnummeret på baggrund af adressen og endelig berige de adresser, som ikke har et postnummer.

I DataFlux gøres dette via nedenstående lookup node.

Til sidst skal det nævnes, at jeg besvarede mailens spørgsmål med nedenstående program, som præcis gør alt det, han spørger om. En løsning, jeg havde udviklet til SAS Forum

Med disse ord vil jeg ønske jer en god jul.

Rune