Benutzer:Vlado/Notizen

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Erstellung der Wikipedia-CD / Erfahrungsbericht

[Bearbeiten | Quelltext bearbeiten]

Die CD-ROM ist endlich im Presswerk. Es war ein langer, heißer Ritt, viel länger und schwieriger als ursprünglich geplant. Die Gründe dafür in Kurzform:

  • inkonsistentes Datenmaterial
  • schwierige Konvertierung bei Detailaspekten
  • hausgemachte Probleme während der Konvertierung


Inkonsistentes Datenmaterial

[Bearbeiten | Quelltext bearbeiten]
  • Personennamenproblematik: Bei Personenartikeln lautet das Wikipedia-Lemma z.B. "Richard Wagner", enzyklopädisch muss das "Wagner, Richard" sein. Über 20.000 Personennamen mussten nach RAG (Regeln für die Alphabetische Katalogisierung) halbautomatisch lemmatisiert werden. Nach den Standards der Digitalen Bibliothek wurden bei dieser Gelegenheit auch die allernotwendigsten Teile eines Personendatensatzes ausgezeichnet (Name, Kurzbeschreibung, Geburtsdatum, Geburtsort, Sterbedatum, Sterbeort).
  • Optischer Firlefanz: Manche Artikel wurden auf eine schöne Optik im Browser getrimmt, was eine automatische Konvertierung in vielen Fällen unmöglich macht.
  • Fehlerhaftes Wiki-Markup: Falsche Listeneinrückungen, falsche Bold-, Kursiv-, usw. Auszeichnungen (z.B. nicht geschlossenene Bolds) haben zusammen mit dem falschen Konvertierungspfad (s.u.) viele Probleme verursacht.
  • Fehlende semantische Auszeichnungen für Metadaten: Navigationsleisten u.ä. mussten händisch herausgepickt werden.


Schwierige Konvertierung bei Detailaspekten

[Bearbeiten | Quelltext bearbeiten]
  • Tabellen: Die Software der Digitalen Bibliothek ist seitenorientiert, d.h. der Aufbau entspricht dem eines Buches. Dabei ist die Zeilenbreite relativ schmal, um das bequeme Lesen auf dem Bildschirm zu ermöglichen. Viele Tabellen konnten deshalb nicht auf der Seite selbst gerendert werden, sondern mussten als externe HTML-Tabellen (d.h. in einem eigenen Fenster) dargestellt werden. Eine spezielle Software musste zuerst entscheiden, welche Tabellen überhaupt in Frage kommen und diese dann konvertieren.
    Darstellung von Tabellen
  • PRE: Ähnliche Probleme bereitete vorformatierter Text. Dabei konnte der meiste Text (bei kleinerem Schriftgrad) übernommen werden. Es zeigte sich jedoch, dass viele Stellen in der Wikipedia (z.B. Zitate) unnötigerweise als PRE-Text ausgezeichnet sind.
  • Math: Da bisher in der Digitalen Bibliothek fast ausschließlich geisteswissenschaftliche Texte erschienen sind, ist eine vernünftige Formelbehandlung (a la Wiki/Latex) nicht implementiert, so dass auf Bitmaps zurückgegriffen werden musste. Wir hoffen, in der nächsten Ausgabe Latex-Formeln direkt darstellen zu können.
  • Bilder: Aus Platzgründen konnten nur ca. 1.400 Bilder übernommen werden.
  • Unicodes: Zum jetzigen Zeitpunkt unterstützt die Software nicht alle Unicoderanges, sondern nur die gebräuchlichen wie griechisch, kyrillisch, hebräisch und arabisch. An einer Erweiterung wird gearbeitet.


Hausgemachte Probleme während der Konvertierung

[Bearbeiten | Quelltext bearbeiten]
  • Komplexität: Wurde unterschätzt. Punkt.
  • Falscher Konvertierpfad: Statt direkt vom Wiki-Markup auszugehen wurde der Umweg über HTML gewählt, um zu XML zu gelangen. Nachdem der Fehler im Prinzip erkannt wurde, war die Zeit zu knapp, um von vorne zu beginnen, so dass gute Arbeit schlechter hinterhergeworfen werden musste.
  • Mangelnde Wiki-Erfahrung: Erfahrene Wikipedianer können nach 10 Minuten Nachdenken die Fallstricke aufzeigen. Wir hatten diese Erfahrungen noch nicht.


Urheberrechtsfragen

[Bearbeiten | Quelltext bearbeiten]
  • Es gibt viele Bilder, bei denen der Lizenzstatus unklar oder gar falsch ist. Die Materie "Lizenzbestimmungen bei Bildern" ist äußerst komplex. Bei dieser Ausgabe ist das nicht so dramatisch, da aus Platzgründen nur ein Bruchteil Teil der Bilder übernommen werden konnte. Für die nächste Ausgabe muss man sich aber was einfallen lassen. Leider scheint Wikimedia Commons noch nicht so richtig zu zünden, die Marschrichtung ist jedoch erfreulich.


Features der CD-ROM

[Bearbeiten | Quelltext bearbeiten]

Neben dem offensichtlichen Vorteil der Offlinenutzung ist Folgendes zu erwähnen:

Komplexe Suchmöglichkeiten

[Bearbeiten | Quelltext bearbeiten]
Suchmöglichkeiten

Per Wildcardsuche kann der gesamte Textbestand schnell durchforstet werden, siehe Screenshot. Hier wird nach "*j[uü]d*" gesucht, das Ergebnis ist zum einen eine Wortliste mit allen Treffern, die die Wurzel "jud" oder "jüd" enthalten und zum anderen eine Fundstellenliste. (Achtung, die beiden roten Wörter auf dem Screenshot sind rot, da danach gesucht wurde, nicht da der Artikel noch nicht existiert!)

Erschließung der Personendaten

[Bearbeiten | Quelltext bearbeiten]
Suche in den Personendaten

Im Screenshot wird die Personentabelle so gefiltert, dass nur Personen mit dem Gebursort Berlin, die zwischen 1800 und 1900 geboren wurden, angezeigt werden. Die Sortierung ist in diesem Fall das Geburtsdatum mit vorausgetipptem "1836", um dort aufzusetzen. Rechts werden 2 verkleinerte Seiten dargestellt.

Enzyklopädischer Aufbau

[Bearbeiten | Quelltext bearbeiten]
Inhaltsverzeichnis

Neben den Buchstaben A-Z und dem Sonderbereich für Lemmata, die mit Ziffern beginnen, wurden 2 Abteilungen für die Chronik und für die Kalendertage eingerichtet. Der Screenshot zeigt einen Teil des Inhaltsbaums, auf der rechten Seite werden im Mikrofishmodus 6 Seiten auf einmal dargestellt. Das Popupmenü bietet den Zugriff auf die Onlineversion an.

2 Lemmatagruppen

[Bearbeiten | Quelltext bearbeiten]
Suche in den Lemmata

Personen- und Sachartikel können getrennt behandelt werden. Der Screenshot zeigt die Verfolgung eines Wortes ("Hersfeld") über die Lemmataliste.

Quellenangaben

Am Ende eines jeden Artikels befindet sich ein Link zur Quelle, vorfolgt man ihn, sieht man (offline!) die Hinweise zu den Autoren, zur Lizenz sowie die Onlinelinks. Desweiteren kann man in jedem Artikel per Browser zur Onlinehistorie gehen.

Schnelle Abbildungsübersicht

[Bearbeiten | Quelltext bearbeiten]
Abbildungsübersicht


Für das Frühjahr 2005 ist eine DVD-ROM geplant, die dann u.a. auch alle Bilder (mit geklärten Rechten) beinhalten soll. Desweiteren schwebt uns vor, zum einen die PDA-Version, zum anderen neben der Digibib-Software noch einen alternativen, browserbasierenden Zugang zu schaffen.