Soundex
Die Schreibweise des Familiennamens hat sich aus dem gesprochenen Namen entwickelt. Deshalb haben die Varianten der Namensschreibweise oft phonetische Ursachen.
Es wurden unterschiedliche Versuche unternommen, die phonetische Ähnlichkeit zweier Familiennamen in einem einfachen Algorithmus zu erfassen. Die Namen können dann "phonetisch" sortiert werden. Im
US-amerikanischen Sprachgebiet hat sich für große Personendateien das SOUNDEX-Verfahren durchgesetzt. (z.B. Schlöder=Schloeder=Schleder=Schleyder=Schlieder haben alle denselben Soundex-Code = S436) Viele US-Archive sind
nach dem SOUNDEX-System organisiert (z.B. Volkszählungslisten ["Census microfilm"], Genealogie-Daten der "Church of Jesus Christ of Latter-day Saints"). Das SOUNDEX-System hat sich hier seit langem
bewährt. Auch die Ähnlichkeit zwischen Originalnamen und "anglisiertem" Namen wird von SOUNDEX oft nachvollzogen, z. B. ist der SOUNDEX-Code sowohl für 'Schumann' als auch für 'Shuman' = S550.
Der Algorithmus
1. Der SOUNDEX-Code besteht aus dem Anfangsgroßbuchstaben des Namens + 3 Ziffern. 2. Zur Ermittlung der 3 Ziffern werden alle Buchstaben durch die Zahlen der folgenden Zuordnung ersetzt:
1 = b, p, f, v 2 = c, s, k, g, j, q, x, z, ß 3 = d, t 4 = l 5 = m, n 6 = r
3.Die Vokale (a,e,i,o,u,y) und die Umlaute (ä,ö,ü) werden 'ignoriert', ebenso die Buchstaben (w,h).
4.Jeder Doppelbuchstabe wird als ein Buchstabe kodiert. 5. Wenn 2 Buchstaben unmittelbar nebeneinander dieselbe Codezahl haben, so werden die beiden Buchstaben als einer kodiert. 6. Haben 2 Buchstaben dieselbe
Codezahl und sind sie durch einen der 'ignorierten' Buchstaben voneinander getrennt, so bleiben ihre Codezahl erhalten.
[7. Sind im Falle der Regel 6. die Buchstaben 'h' oder 'w' die Trennbuchstaben zwischen den
beiden Buchstaben mit derselben Codezahl, so werden diese beiden Buchstaben als einer kodiert.]
Wenn die Regel 7. angewendet wird, so erhält man einen SOUNDEX-Dialekt. Der Soundex-Wert bei Anwendung dieser Regel
ist in dem Soundex-Programmfenster in [...] angegeben.)
8. Die verbliebenen Ziffern, von links nach rechts gelesen, werden zu dem 3ziffrigen Block zusammengesetzt. Wenn Ziffern übrigbleiben, so werden diese
ignoriert. Wenn weniger als 3 Ziffern vorhanden sind, so wird mit Nullen aufgefüllt. 9. Ist der Anfangsbuchstabe des Namens ein Umlaut, so wird er aufgelöst, also Ä wird zu A, Ö zu O, Ü zu U.
Hat der Name eine
Vorsilben wie von, van, de, le, so sollte der Name einmal mit und einmal ohne Vorsilbe kodiert werden. Damit ist sichergestellt, daß der Name mit Sicherheit gefunden wird. Denn der Name "von Berge" könnte als
"Vonberge" oder auch als "Berge von" gespeichert sein.
_______________________________
H G Schlöder - Aug 2002
Siehe: www.schloeder.net + GenTools4.0
<Zurück> |