Ein „Name ist Schall und Rauch“ so sagt es schon Goethe durch Faust (in Faust I), jedoch kann man es auch mit einer viel älteren Redensart halten: Nomen est omen, der Name ist Programm.

Zumindest kam uns letzteres als einziges in den Sinn, als wir die Namenslisten aller Neugeborenen in Berlin für das Jahr 2012 zu Gesicht bekamen.

funny-names

Unser Eindruck verstärkte sich schlagartig bei einer näheren Betrachtung derNamen, besonders der einzigartigen. Dabei fielen vor allem Namen die in der nebenstehenden Word-Cloud aufgeführt sind, als besonders lustig und außergewöhnlich auf. Gemacht wurde diese Grafik übrigens mit dem Tagxedo Creator, einem praktischem (und vor allem kostenlosen) Tool für Word-Clouds.

Jedoch haben wir uns nicht von solch einzigartigen Namen ablenken lassen, sondern das Sprichwort etwas weitergenommen als ursprünglich gedacht: Namen können auch in größerem Umfang ein Programm sein z.B. für einen Berliner Bezirk oder gleich für alle Berliner Bezirke.

Was wäre, wenn man die Liste nimmt, ein bisschen bearbeitet und mit soziodemografischen Daten schneidet? Bestätigt sie, was man glaubt zu wissen über Zusammenhänge von Namen und Migrationsdaten? Oder sind die Berliner einfach nur sehr kreativ (und ein wenig verrückt? 😉 bei der Namensgebung und es schert sie nicht wo wer wie wohnt? Das war also unser selbstgestecktes Ziel, welches wir sogar nach vielen Schritten erreicht haben. Was mussten wir jedoch tun um dahin zu gelangen?

Hier ein Überblick:

– Namenslisten der Bezirke zusammenlegen & alle Dopplungen herausfiltern (schon hat man 12000 verschiedene Namen) — erfolgte mithilfe einer komplexen Excel-Formel, die wir nach mehreren Versuchen dazu gebracht haben, nur korrekte Namen aus dem jeweils angewählten Stadtbezirk in die vorgesehene Zelle einzutragen

– Sonderzeichen, deren Kodierungsart wir erst ermitteln mussten, die falsch codiert wurden umcodieren, was wir mit der „Suchen & Ersetzen“-Funktion getan haben (und schon hat man 12000 verschiedene Namen, die korrekt geschrieben sind 😉 )

– Reduzieren der Namen auf eine möglichst logische Weise — Unterteilung in individuelle Namen (Namen die weniger als 10 Mal in Berlin 2012 vergeben wurden) und häufige Namen, die 10 Mal und öfters vergeben wurden (und schon sind nur noch 1000 Namen übrig)

– Namen mit Herkunftsinformationen versehen, wer weiß wozu man es braucht — dies erforderte eine immense Recherchearbeit, da wir uns erst überlegen mussten, welche Wurzeln es geben könnte und dann in entsprechenden Online-Nachschlagewerken (z.B. vorname.com) die Wurzeln recherchiert

– hinzufügen zahlreicher soziodemografischer Daten (beispielsweise Arbeitslosenzahlen, Einwohnerzahl, Anteil der Migranten, Durchschnittslohn im Bezirk), bezirksgenau

Et voila — schon hat man alles zusammen, um mögliche Zusammenhänge aufzuzeigen. Beispielsweise, dass in Bezirken, die einen hohen Anteil an Migranten haben, die Anzahl individueller Namen deutlich höher ist, als in anderen Bezirken. Um solche Aussagen jedoch etwas plastischer darstellen zu können, haben wir uns für folgende Darstellung entschieden:

Berlin Lichtenberg

Wie man sieht, sind die Farben tendenziell ähnlicher, wobei je grüner die Farbe ist, der Anteil entsprechend höher ist. Natürlich könnte man auch statistisch gesehen eine Korrelation berechnen, in diesem Fall mit dem Wert 0,83, was einem ziemlich starken linearen Zusammenhang von individuellen Namen und Migrationsanteil offenbart. Jedoch ist das bei solch wenigen Daten eher weniger zielführend, denn Korrelationen können lügen (vor allem wenn die Stichprobe zu klein ist und man, wie wir, willkürlich bestimmte Parameter festsetzt).

Was können wir also daraus mitnehmen?

Annahmen, die man sich vorher schon logisch zusammenreimen kann, bestätigen sich größtenteils. Zum Beispiel erfolgt Integration eher weniger über Namensgebung (wobei man hier vlt. eine Sonderrolle für Migranten asiatischer Herkunft, da uns bei den häufigen Namen keine asiatischen über den Weg gelaufen sind).

Nicht jeder Zusammenhang ergibt Sinn oder wie soll sich ein Zusammenhang aus Einwohnerdichte und Namenshäufigkeit logisch erschließen lassen? Daher gebietet ein Umgang mit offenen Daten, wenn man sie statistisch nutzen will, immer einen offenen, weitsichtigen Blick, um nicht engstirnig zu viel in mögliche Daten zu interpretieren! Skepsis ist gefragt und vor allem der kritische Blick auf die Bearbeitungsschritte bei offenen Daten!

Des Weiteren bedeutet Korrelation nicht gleich Kausalität! Denn man muss bedenken, dass eine Korrelation, die nur beschreibt inwiefern es einen linearen Zusammenhang zwischen zwei Variablen gibt, nur eben jenen Zusammenhang klärt und keinesfalls Rückschlüsse erlaubt, dass beispielsweise eine hohe Anzahl Migranten viele individuelle Namen bewirkt. Dies tritt stärker zu Tage, je komplexer die Thematik der Untersuchung ist. Gerade in der Namensgebung gibt es so viele Faktoren, auch viele die sich nicht mal annähernd messen lassen, dass es vermessen wäre Kausalitäten zu bilden. Jedoch ist es uns auch nicht möglich komplexere Modelle zu benutzen, da unsere Stichprobe einfach viel zu gering ist und somit sehr anfällig dafür ist eine atypische zu sein (falls es überhaupt eine typische gibt).

Als letztes sollten wir uns noch für die unspektakulären Namen bedanken, die uns unsere Eltern gegeben haben, denn Namen mögen vielleicht Schall und Rauch sein, jedoch hat auch dieses Sprichwort durchaus seine Grenzen, wenn man beim bloßen Lesen des Namens mehr als nur Schmunzeln muss 😉

Autoren: David K. und Dominik W.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*