Alphabetische Sortierung

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 24. Juni 2016 um 10:21 Uhr durch Horst Gräbner (Diskussion | Beiträge) (Änderungen von 85.16.134.155 (Diskussion) auf die letzte Version von Monow zurückgesetzt). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Die alphabetische Sortierung ist eine Sortierung, nach der Zeichenketten nach der Reihenfolge der Buchstaben im Alphabet angeordnet werden. Die herkömmliche Sortierung wird auch als initialalphabetische Sortierung bezeichnet, da die Ordnung der einzelnen Buchstaben in Schriftrichtung ermittelt wird. Bei der alphabetischen Sortierung müssen Besonderheiten wie Sonderzeichen, diakritische Zeichen, Leerzeichen, Groß- und Kleinschreibung, Bindestriche sowie Ziffern beachtet werden, da sie unterschiedliche Regeln und Normen generieren.

Grundprinzip

Um bei zwei gegebenen Zeichenketten zu entscheiden, welche in der (initial)alphabetischen Sortierung zuerst kommt, werden die Zeichenketten, beginnend vom ersten Zeichen, zeichenweise verglichen. Die erste Zeichenposition, an denen sich die beiden Zeichenketten unterscheiden, entscheidet die Reihenfolge: Die Zeichenkette, deren Zeichen an dieser Position weiter vorne im Alphabet steht, kommt zuerst. So kommt beispielsweise „elektrisch“ vor „fertig“ (e vor f) und „Fahrrad“ vor „Fahrstuhl“ (r vor s). Wenn eine Zeichenkette kürzer als die andere ist und gleich dem Anfang der anderen, kann diese Regel nicht angewandt werden. Dann wird üblicherweise die kürzere Zeichenkette zuerst sortiert. So kommt beispielsweise „Fahrrad“ vor „Fahrradkette“.

Für den Umgang mit Satzzeichen, Sonderzeichen und Groß- und Kleinschreibung gibt es verschiedene Regeln; siehe dazu Abschnitt Sortierregeln nach Sprachen.

Die alphabetische Sortierung ist die Vorlage für das mathematische Konzept der lexikographischen Ordnung. Umgekehrt ist die alphabetische Sortierung selber eine lexikographische Ordnung, mit der Reihenfolge der Buchstaben im Alphabet als zugrundeliegender linearer Ordnung.

Geschichte

Marcus Verrius Flaccus (* um 10 v. Chr.) ordnete als Erster ein lateinisches Wörterbuch alphabetisch an. Die Suda aus der 2. Hälfte des 10. Jahrhunderts ist die erste alphabetisch angeordnete byzantinische Enzyklopädie. Der Liber de proprietatibus rerum des Bartholomaeus Anglicus aus dem 13. Jahrhundert ist ebenfalls alphabetisch geordnet und wird oft als ein Vorläufer der Enzyklopädie angesehen. Das Prinzip, die Schriftzeichen überhaupt in einer bestimmten Abfolge anzuordnen, ist schon über dreitausend Jahre alt; siehe Ugaritische Schrift und allgemein Geschichte des Alphabets.

Sortierregeln nach Sprachen

Deutsche Sprache

Einsortierungsregeln für weitere Buchstaben

Das deutsche Alphabet ergänzt das moderne lateinische Alphabet um die Umlaute Ä, Ö und Ü sowie den Kleinbuchstaben ß. Diese zusätzlichen Buchstaben können auf vier Arten einsortiert werden:

  1. Ignorieren der Tremata. Müll wird wie Mull sortiert.
  2. Gleichordnung von Grundbuchstaben, Doppelbuchstaben und Umlaut, wenn Doppelbuchstabe wie Umlaut gesprochen wird. Mull wird wie Muell oder Müll sortiert. Duell dagegen zwischen Duden und Dugast.
  3. Auflösung des Umlauts. Müll wird wie Muell vor Muffe einsortiert.
  4. Separierung als selbstständiger Buchstabe.
    1. Einordnung hinter dem Grundbuchstaben. Müll steht zwischen Muzin und Münze (und Myalgie).
    2. Einordnung am Ende des Alphabets. Müll steht hinter Mythos.

Für alle sonstigen (fremdsprachigen) diakritischen Zeichen gilt im deutschsprachigen Raum, dass sie einheitlich weggelassen werden; so auch alle Akzente, Tilde, Makron: é und e, ç und c, ñ und n, č und c, ō und o sind gleich.

Deutschland

Vorlage:Infobox DIN Vorlage:Infobox DIN Die deutsche Norm DIN 5007-1 beschreibt unter dem Titel „Ordnen von Schriftzeichenfolgen (ABC-Regeln)“ das Sortieren.

DIN 5007 Variante 1 (für Wörter verwendet, etwa in Lexika; Abschnitt 6.1.1.4.1)

  • ä und a sind gleich
  • ö und o sind gleich
  • ü und u sind gleich
  • ß und ss sind gleich

DIN 5007 Variante 2 (spezielle Sortierung für Namenslisten, etwa in Telefonbüchern; Abschnitt 6.1.1.4.2)

  • ä und ae sind gleich
  • ö und oe sind gleich
  • ü und ue sind gleich
  • ß und ss sind gleich

Dies berücksichtigt, dass bei Eigennamen unterschiedliche Schreibweisen möglich sind, während Begriffe in einem Lexikon oder Wörterbuch nur unter genau einer Schreibung einzutragen sind. Dagegen kann nicht erschlossen werden, ob jemand nun Moeller oder Möller heißt. Dies gilt vor allem für deutschsprachige Einzelpersonen, Institutionen und Ortsnamen.

Personennamen werden in Deutschland häufig (z. B. in Telefonbüchern) in der folgenden Art und Weise alphabetisch sortiert:

  • Zuerst werden die Einträge nach Nachnamen sortiert, wobei akademische Grade wie „Prof.“, „Dr.“ und Namenszusätze wie „von“, „vor“, „am“, „zum“ weggelassen werden. Dabei ist zu beachten, dass Namenszusätze auch aus mehreren Wörtern bestehen können, wie etwa bei „von der Lippe“.
  • Bei identischen Nachnamen wird anschließend nach eventuell vorhandenen Namenszusätzen alphabetisch sortiert, wobei Personennamen ohne Namenszusätze immer zuerst aufgeführt werden.
  • Stimmen auch die Namenszusätze überein (oder sind keine vorhanden), wird als letztes anhand des Vornamens alphabetisch sortiert.

Diese Art der Sortierung ist in den bibliographischen Ordnungsregeln DIN 31638 geregelt.

Österreich

Österreichische Sortierung (für Telefonbücher)

  • ä folgt auf a (kommt daher erst nach az)
  • ö folgt auf o
  • ü folgt auf u
  • ß folgt auf ss
  • St. folgt auf Sankt

Im gedruckten österreichischen Telefonbuch finden sich unterschiedliche Sortierungen: Im Ortsverzeichnis werden Umlaute und ß wie eigene Buchstaben am Ende des Alphabets einsortiert. In den Infoseiten und Gelben Seiten wird nach DIN 5007 Variante 1 sortiert. Im Namensverzeichnis wird die Österreichische Sortierung verwendet.

In Bibliotheken folgt sch oft auf s, also erst nach sz.

Beispiel für deutschsprachige Sortierungen

DIN 5007 Var.1
(Lexikon)
DIN 5007 Var.2
(Telefonbuch)
Österreichische
Sortierung

Göbel
Goethe
Goldmann
Göthe
Götz

Göbel
Goethe
Göthe
Götz
Goldmann

Goethe
Goldmann
Göbel
Göthe
Götz

Die beiden Schreibungen von Goethe stehen bei Variante 2 unmittelbar benachbart, nur durch Vornamen voneinander unterschieden. Johann Wolfgang von Goethe verwendete zu Lebzeiten beide Varianten; die Familie hieß zuvor Göthé. Die heute einheitliche Schreibweise wurde erst mehr als ein Vierteljahrhundert nach seinem Tod von Germanisten eingeführt.

Dänische und norwegische Sprache

  • æ kommt nach z
  • ø kommt nach æ
  • å kommt nach ø

Finnische und schwedische Sprache

  • å kommt nach z
  • ä kommt nach å
  • ö kommt nach ä
  • ü und y sind gleich
  • v und w sind oder waren oft gleich auch bei Fremdwörtern und Namen (z. B. Verdi nach Wagner)

Isländische Sprache

  • ð kommt nach d
  • þ kommt nach z
  • æ kommt nach þ
  • ö kommt nach æ
  • Akut-Diskrite folgen immer ihren jeweiligen Grundzeichen
  • á und å sind gleich

Andere Sprachen

Bei anderen Sprachen unterliegt die alphabetische Sortierung ebenfalls sprachabhängigen Zusatzregeln, die ihre Ursache in zusätzlichen Buchstaben oder speziellen Sonderregeln haben. So gibt es im Spanischen traditionell den Buchstaben Ch, der bis 1994 üblicherweise alphabetisch an anderer Stelle stand als ein C, was die Computeralgorithmen zur Sortierung vor Probleme stellte. Nach n folgt ñ. Noch kritischer wird die alphabetische Sortierung bei Sprachen wie Japanisch oder Chinesisch, die eine Vielzahl von Zeichen verwenden und deren Reihenfolge im Font (also deren Codierung) nicht der Reihenfolge einer dort üblichen Sortierung entspricht. Im Chinesischen ist zum Beispiel die Sortierung nach dem Pinyin-Äquivalent (in Computersystemen) oder nach einem System üblich, welches sich nach dem Basissymbol und der Anzahl der Striche in Uhrzeigerrichtung richtet (in Wörterbüchern).

Computersysteme

Computersysteme codieren die gespeicherten Zeichenketten mittels eines systemweiten oder anwendungsspezifischen Standardcodes (ASCII und seine Varianten oder Ergänzungen, seltener EBCDIC, heute immer mehr Unicode) und ordnen die Zeichen (einschließlich Ziffern, Leerzeichen, Satz- und Sonderzeichen) im einfachsten Fall nach dem zugeordneten Zahlenwert dieses Codes, sodass beispielsweise auch alle lateinischen Großbuchstaben vor dem kleinen „a“ eingeordnet werden. Viele Programme wenden jedoch eine von den Benutzern kulturell erwartete traditionelle Sortierung an. Dabei gibt es Möglichkeiten, auf die Sortierreihenfolge durch individuelle Kodierung oder Parametrisierung Einfluss zu nehmen. Ein möglicher Algorithmus, der dabei Anwendung findet, ist der Unicode Collation Algorithm. Die Art der Sortierung wird durch Angabe einer sogenannten Kollation (von engl. collation ‚Sortierfolge‘) für Betriebssystemkonfigurationen und Anwendungen wie beispielsweise Datenbanksysteme festgelegt.

Rückläufige Sortierung

Die rückläufige Sortierung ist eine alphabetische Sortierung, bei der die Wörter von hinten nach vorne gelesen werden. Bei der Erstellung von Rückläufigen Wörterbüchern wird in dieser Weise sortiert. Sie kann auch in Reimlexika verwendet werden.

Siehe auch

Weblinks