Wikipedia:Archiv/Publikationen/CD 2004/Erfahrungsbericht

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Diese Seite gehört zum Wikipedia-Archiv.

Die Master-CD-ROM ist mit sagenhaften 20 Tagen Verspätung endlich im Presswerk (13. Oktober 2004). Es war ein langer, heißer Ritt, viel länger und schwieriger als ursprünglich geplant.

Inkonsistentes Datenmaterial

[Quelltext bearbeiten]
  • Personennamenproblematik: Bei Personenartikeln lautet das Wikipedia-Lemma z. B. "Richard Wagner", enzyklopädisch muss das "Wagner, Richard" heißen. Über 20.000 Personennamen mussten nach RAK (Regeln für die alphabetische Katalogisierung) halbautomatisch lemmatisiert werden. Nach den Standards der Digitalen Bibliothek wurden bei dieser Gelegenheit auch die allernotwendigsten Teile eines Personendatensatzes ausgezeichnet (Name, Kurzbeschreibung, Geburtsdatum, Geburtsort, Sterbedatum, Sterbeort).
  • Optischer Firlefanz: Manche Artikel wurden auf eine schöne Optik im Browser getrimmt, was eine automatische Konvertierung in vielen Fällen unmöglich macht.
  • Fehlerhaftes Wiki-Markup: Falsche Listeneinrückungen, falsche Bold-, Kursiv-, usw. Auszeichnungen (z. B. nicht geschlossene Bolds) haben zusammen mit dem falschen Konvertierungspfad (s. u.) viele Probleme verursacht.

Schwierige Konvertierung bei Detailaspekten

[Quelltext bearbeiten]
  • Tabellen: Die Software der Digitalen Bibliothek ist seitenorientiert, d. h. der Aufbau entspricht dem eines Buches. Dabei ist die Zeilenbreite relativ schmal, um das bequeme Lesen auf dem Bildschirm zu ermöglichen. Viele Tabellen konnten deshalb nicht auf der Seite selbst gerendert werden, sondern mussten als externe HTML-Tabellen (d. h. in einem eigenen Fenster) dargestellt werden. Eine spezielle Software musste zuerst entscheiden, welche Tabellen überhaupt in Frage kommen und diese dann konvertieren.
  • PRE: Ähnliche Probleme bereitete vorformatierter Text. Dabei konnte der meiste Text (bei kleinerem Schriftgrad) übernommen werden. Es zeigte sich jedoch, dass viele Stellen in der Wikipedia (z. B. Zitate) unnötigerweise als PRE-Text ausgezeichnet sind. Manche PRE-Texte, z.B. ASCII-Art dürfen nicht über Seitengrenzen hinweg umbrochen werden, andere schon, z. B. längere Codeschnipsel. Bei seitenorientiertem Rendering muss somit bei jeder Stelle während der Konvertierung entschieden werden, um welchen Fall es sich handelt. Bei der ersten CD wurde dies nicht gemacht, was einige unschöne Folgen hat.
  • Math: Da bisher in der Digitalen Bibliothek fast ausschließlich geisteswissenschaftliche Texte erschienen sind, ist eine vernünftige Formelbehandlung (a la Wiki/Latex) nicht implementiert, so dass auf Bitmaps zurückgegriffen werden musste. Wir hoffen, in der nächsten Ausgabe Latex-Formeln direkt darstellen zu können.
  • Bilder: Aus Platzgründen konnten nur ca. 1.200 Bilder übernommen werden. Einige Artikel können deshalb auf CD nur bedingt verwendet werden, da entscheidende Grafiken oder gar Formeln fehlen. Eine Attributierung der Bilder in "notwendig" und "ergänzend" wäre wünschenswert.
  • Unicodes: Zum jetzigen Zeitpunkt unterstützt die Software nicht alle Unicoderanges, sondern nur die gebräuchlichen wie griechisch, kyrillisch, hebräisch und arabisch. An einer Erweiterung wird gearbeitet.

Hausgemachte Probleme während der Konvertierung

[Quelltext bearbeiten]
  • Komplexität: Wurde unterschätzt. Punkt.
  • Falscher Konvertierungspfad: Statt direkt vom Wiki-Markup auszugehen wurde der Umweg über HTML gewählt, um zu XML zu gelangen. Nachdem der Fehler im Prinzip erkannt wurde, war die Zeit zu knapp, um von vorne zu beginnen, so dass gute Arbeit schlechter hinterher geworfen werden musste.
  • Mangelnde Wiki-Erfahrung: Erfahrene Wikipedianer können nach 10 Minuten Nachdenken die Fallstricke aufzeigen. Wir hatten diese Erfahrungen noch nicht.


Urheberrechtsfragen

[Quelltext bearbeiten]

Es gibt viele Bilder, bei denen der Lizenzstatus unklar oder gar falsch ist. Die Materie "Lizenzbestimmungen bei Bildern" ist äußerst komplex. Bei dieser Ausgabe ist das nicht so dramatisch, da aus Platzgründen nur ein Bruchteil der Bilder übernommen werden konnte. Für die nächste Ausgabe muss man sich aber was einfallen lassen. Leider scheint Wikimedia Commons noch nicht so richtig zu zünden, die Marschrichtung ist jedoch erfreulich.