Adressdaten normalisieren
Geraldo
- php
0 Encoder
Hallo,
ich suche nach einem Verfahren, dass mir Firmendaten wie Firmenname und Telfonnummer usw. Normalisiert um bei einem Import vorhandene Daten besser matchen zu können oder um Duplikate zu finden die nicht nur GLEICH sondern ähnlich sind.
Gibt es da ein standardisiertes oder "empfohlenes" Verfahren?
Ich habe auch schon eigene Ansätze, aber je mehr ich hier lokal rum teste desto mehr wird mir klar, dass es unendlich viele Möglichkeiten gibt.
Angefangen von ö in oe oder ä in ae auf beiden Seiten umzuwandeln bis hin zu
Beispiel:
Suche nach Firma:
"Firma dies und das"
SQL:
firma LIKE '%Firma%' OR firma LIKE '%dies+das%' OR firma LIKE '%diesunddas%' OR firma LIKE '%dies und das%' OR firma LIKE '%diesund das%' OR firma LIKE '%dies unddas%' OR firma LIKE '%dies&das%'
was ist zuviel und was ist zuwenig??
Ich brauch echt hilfe!
Geraldo
Ich denke es ist hauptsächlich bei einem "und" oder + oder & relevant, denn so viele Firmennamen mit mehrdeutiger Schreibweise gibt es ja nicht. Du hast evtl. eher das Problem mit Zusätzen, die einmal dabei stehen und einmal nicht.
Also Firma X GmbH, Firma X, X, X Dienstleistungen ...
Was genau willst du matchen? Gehts darum dass eine Firma evtl. unter mehreren Bezeichnungen eingetragen ist? Dann würd die Anschrift schon mal helfen, als erstes natürlich PLZ. Dann Telefonnummer, sofern man die auf die Zentrale stutzen kann.
Der Rest ist ne Sauarbeit, bei der wahrscheinlich trotzdem noch Fälle durchschlüpfen.