Diskussion:Kölner Phonetik

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 2 Jahren von 62.245.152.55 in Abschnitt Grenzen des Algorithmus II
Zur Navigation springen Zur Suche springen

Ich denke, dass die Umsetzung mit der Tabelle etwas mißverständlich dargestellt ist, weil ja in dem Verfahren nicht wirklich Buchstabengruppen umgesetzt werden, sondern alle Buchstaben einzeln. Also zum Beispiel die Umsetzung von "Scoobydoo" erfolgt so:

  • Das "S" in "8" (dabei ist aber in der Tabelle schon nicht klar, ob die Umsetzung auf Basis "S" oder "SC" erfolgt; falsch wäre auf jeden Fall - aber genau das impliziert die Tabelle - das "SC" gemeinsam in eine "8" umzuwandeln und anschließend mit dem "O" weiterzumachen)
  • Das "C" in "4" (weil ein "O" folgt)
  • ... und dann "OOBYDOO" in "0010200".

Somit erhält man letztlich im Ergebnis "8412" und richtigerweise wäre das phonetisch gleich mit "SKOOBYDOO" --84.134.246.152 07:07, 1. Mai 2007 (CEST)Beantworten

Die Umsetzung in "812" ist richtig, die Aufspaltung erfolgt nach der längsten Gruppe: SC,O,O,B,Y,D,O,O ergibt 80010200, dies wird zu 812

SKOOBYDOO wird dagegen umgesetzt in S,K,O,O,B,Y,D,O,O ergibt 840010200, wird 8412. Die ponetische Umsetzung ist tatsächlich verschieden. --Xqt 06:11, 2. Mai 2007 (CEST)Beantworten

Das kann ich bestätigen: Die Implementierung der Kölner Phonetik von Maroš Kollár liefert die Werte (Scoobydoo: 812; Skoobydoo: 8412), die Du nennst. Übrigens: Soundex und Metaphone machen hier keinen Unterschied. --Thüringer ☼ 15:39, 25. Aug. 2010 (CEST)Beantworten

Hi,

also, wenn ich "SCOOBYDOO" und "SKOOBYDOO" in SAP in die Funktion für das Kölner Verfahren eingebe, erhalte ich beidesmal "8412" und würde (richtigerweise) eine phonetische Identität ausgewiesen bekommen. Anders bei "SCHOOBYDOO" (was man ja auch anders ausspricht), dort erhalte ich "812".

Das gleiche Problem habe ich mit "MIRCX". Dieser Name wird als Beispiel in dem Erstartikel in den IBM-Nachrichten von 1969 aufgeführt und wird dort codiert als "6748". Nach der Tabelle im Artikel würde aber "CX" zu 4 und man käme auf "674".

Ein weiteres Beispiel: Streng nach Tabelle wären (unsinnigerweise) "Böttcher" (1287) und "Bötcher" (187) phonetisch verschieden. Wenn ich den IBM-Artikel richtig verstehe, wäre das nach dem dort aufgezeigten Weg nicht so.

Das Grundproblem scheint mir dabei zu sein, dass die ursprüngliche Beschreibung recht kompliziert gehalten ist und durchaus auch Interpretationsspielräume lässt, die durch verschiedene Autoren unterschiedlich genutzt werden. Daher unterscheiden sich die Algorithmen, die als Kölner Phonetik verkauft werden.

Es wäre daher gut, wenn Du die Quelle ergänzen würdest, aus welcher die Umsetzungstabelle stammt.

--Freddy vom Jupiter 20:53, 2. Mai 2007 (CEST)Beantworten


Anwendung[Quelltext bearbeiten]

Wo wird dieses System denn angewendet?--Kölscher Pitter 01:31, 23. Aug. 2007 (CEST)Beantworten

Ist (s.o.) vermutlich in SAP implementiert, kann es selbst aber nicht verifizieren.-- @xqt 06:01, 23. Aug. 2007 (CEST)Beantworten

Diskrepanz im Algorithmus zwischen Artikel und Magisterarbeit[Quelltext bearbeiten]

Zwischem dem Algorithmus, der in der Magisterarbeit (siehe Quelle) definiert ist und diesem Artikel gibt es eine Diskrepanz!

Im Artikel werden erst die doppelten entfernt, dann die 0'en für Vokale beseitigt. In der Magisterarbeit ist die 0 einzig und alleine im Anlaut vorhanden. In den Beispielen der Magisterarbeit wird auch "Hoffmann" zu 036 und nicht zu 0366, wie es der Wikipedia Artikel besagt. Allerdings scheint die Implementierung in der Magisterarbeit wieder dem Wikipedia-Artikel zu entsprechen. Hat jemand Zugriff auf das Original von IBM und kann das verifizieren? -- McWizard 15:55, 5. Mär. 2008 (CET)Beantworten

Es kommt auf die konkrete Implementierung an. In der Kölner Phonetik steht die 0 nur im Anlaut und zwar für die Buchstaben AEIOUYJÄÖÜH. Man kann das erreichen, indem man das erreichen, indem man die o.g. Buchstaben in einem Zwischenschritt zu 0 umsetzt und, nachdem alle Dupletten entfernt wurden, alle 0en außer im Anlaut ebenfalls entfernt. Es gibt aber auch Implementierungsmöglichkeiten, die ein Wort in ähnlichklingende Zeichen umsetzt. Das sind dann neben den o.g. noch PTFKLNRS, denen die Ziffern 1-8 zugeordnet werden. Nach dem Entfernen der Dupletten und anschließendem Entfernen der Buchstaben AEIOUYJÄÖÜH (außer einmalig im Anlaut) bleibt dann der phonetische Code übrig. Hoffmann wird folgendermaßen kodiert:
  1.  Hoffmann
  2. $HOFFMANN (in Großbuchstaben umwandeln)
  3. $HOFFNANN (in ähnlichklinkende Laute umwandeln)
  4. $HOFNAN (Dubletten entfernen)
  5.  0366 (Kodieren, 0 nur im Anlaut)

Die kodierung zu 036 ist höchstwahrscheinlich falsch. Ich kann's aber z.B. in SAP nicht falsifizieren. -- @xqt 06:55, 10. Mär. 2008 (CET)Beantworten

Bei der SAP-Implementierung ergibt sich für "Hoffmann" die doppelte 6. --Brotbaecker 17:23, 23. Mai 2008 (CEST)Beantworten

48[Quelltext bearbeiten]

X nicht nach C, K, Q wird durch 48 ersetzt, so die Quelle (Seite 18). --Koveras 15:45, 7. Jul. 2009 (CEST)Beantworten

Fragen über Fragen![Quelltext bearbeiten]

Hallo! Besagte "48" für X halte ich für einen Schreibfehler, denn in den Grundregeln heißt es: "...eine Ziffer zwischen 0 und 8 ab". Da passt die 48 wohl nicht ins Konzept. Es ist wohl eher die 4 gemeint, denn X nach C, K, Q erhält die 8. Das wäre logisch und nachvollziehbar. Dagegen gibt es einen Widerspruch in den Regeln: C vor ... X --> 4 und ganz unten X nach C... --> 8. Das ist für mich identisch oder übersehe ich da eine Bedingung? Hat eigentlich schon mal jemand das Original gesehen oder sich mit Herrn Postel verständigt (falls es noch möglich ist)? Es wäre sehr interessant und auch wichtig, dass offene Fragen geklärt oder zumindest eindeutig festgelegt werden. Dann könnte die Kölner Phonetik noch Furore machen. Zumindest für meine Zwecke (ca. 5000 Namen verwalten) scheint sie mir recht gut geeignet zu sein. Ich habe alles mal in EXCEL nachgebildet und es arbeitet sehr zufriedenstellend. Am Ende muss ich es irgendwie in ACCESS als Modul einbinden können. ALs Nichtprogrammierer bin ich ganz schön aufgeschmissen. Kann mir jemand weiterhelfen? Die Beispiele in PHP und Python aus dem Internet habe ich mir schon angesehen. zuppinger25 (21:29, 3. Aug. 2009 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Das passt schon: X wird wie KS gesprochen, daher die Codierung in "48" -- @xqt 23:06, 3. Aug. 2009 (CEST)Beantworten

Perlcode von Wilz[Quelltext bearbeiten]

Im Perlcode von Wilz ist definitiv noch ein Fehler. Wenn man sich die Zeilen:

#  return ("1",0) if index ("bp",$char) >= 0;
#  return ("8",0) if index ("dt",$char) >= 0 and index ("csz",$nextchar) >= 0;
#  return ("2",0) if index ("dt",$char) >= 0 ;
#  return ("3",0) if index ("fvw",$char) >= 0;
#  return ("3",1) if index ("p",$char) >= 0 and $nextchar eq "h";

ansieht wird zeile 5 niemals durchlaufen werden, weil das "p" immer schon in Zeile 1 mit Rückgabewert "1" abgefangen wird. Deshalb liefert der Beispielcode von Wilz auch füer "Stephan" und "Stefan" unterschiedliche Werte, obwohl phonetisch gleich. (nicht signierter Beitrag von 194.127.8.24 (Diskussion) 09:52, 25. Aug. 2010 (CEST)) Beantworten

Hier ist eigentlich nicht der richtige Ort, um Fehler in bestimmten Implementierungen zu diskutieren. Aber aus Neugier: Hast Du den Perl-Code von Wilz mal laufen lassen? Kann man ihn irgendwo runterladen oder muss man ihn aus dem PDF extrahieren? Bei einer schnellen Suche bin ich auf eine alternative Perl-Implementierung gestoßen, die ich unter Weblinks eingetragen habe (da ist wohl auch irgendwo Code von Wilz enthalten, sehe ich gerade). --Thüringer ☼ 12:24, 25. Aug. 2010 (CEST)Beantworten
P.S.: Jetzt habe ich die von mir eingetragene Implementierung von Maroš Kollár testen können (allerdings nur die alte Version 1.07; die aktuelle ließ sich nicht bauen). Ergebnis: Stefan, Stephan und sogar Steven werden gleich kodiert als 8236. --Thüringer ☼ 15:23, 25. Aug. 2010 (CEST)Beantworten
Ja, ich habe den Wilzcode mal laufen lassen. Alternativ habe ich auch einen kleinen TestClient als GUI mit AutoIt geschrieben, der den WILZ-Code umsetzt. Beschäftige mich grade ein wenig wegen eines Projektes mit (fuzzy) Namensvergleich. Bei Interesse kann ich Dir alles zukommen lassen. (email?)
P.S.: Lustig ist aber auch das Stephanie = Stephan (nicht signierter Beitrag von 194.127.8.25 (Diskussion) 13:19, 27. Aug. 2010 (CEST)) Beantworten

Grenzen des Algorithmus[Quelltext bearbeiten]

Zum Beispiel:

  • Krupphusten -> 4713826
  • Krupp -> 471
  • husten -> (0)826
  • kruphusten -> 473826

Da ph generell als f (3) kodiert wird, interpretiert der Algorithmus Krupphusten sozusagen als Krupfusten. Schreibt nun jemand das Wort versehentlich mit einem P (phonetisch zumindest annähernd identisch), wird daraus Krufusten (473826) (nicht signierter Beitrag von 78.52.234.172 (Diskussion) 10:24, 28. Apr. 2011 (CEST)) Beantworten

Grenzen des Algorithmus II[Quelltext bearbeiten]

Wenn es richtig ist, dass sämtliche Vokale den Code '0' bekommen (der dann - außer am Anfang - auch noch entfernt wird, was dann aber auch nicht mehr viel ausmacht), kann dieser Algorithmus aus meiner Sicht praktisch nur fürs Allergröbste angewendet werden, denn das führt z.B. dazu, dass die phonetischen Codes für "Meier","Moor" und "Mauer" (und auch "Nuhr") identisch sind ("67"). Vielleicht sollte diese Einschränkung kurz im Artikel erwähnt werden. --Porrohman (Diskussion) 15:18, 3. Apr. 2013 (CEST)Beantworten

Vergleiche dazu auch: Reicht die phonetische Suche?--62.245.152.55 19:09, 24. Apr. 2022 (CEST)Beantworten