Benutzer:Mathias Schindler/Dossier

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

In einem Satz[Bearbeiten | Quelltext bearbeiten]

Die automatische Erstellung eines handlichen Readers zu einem gegebenen Thema ohne jedwede Interaktion mit dem Benutzer.

Rationale[Bearbeiten | Quelltext bearbeiten]

Wikipedia wird in der Tendenz eine so große Textmenge umfassen, daß es um die Suche nach Methoden gehen sollte, wie diese Texte zu erschließen sind. Solange der Leser eine konkrete Vorstellung hat, wonach er suchen will, kann dies vermutlich noch gutgehen. Sobald es aber komplizierter wird oder auch nur ansatzweise das entsprechende Vorwissen fehlt, braucht der Leser Hilfestellungen, die ihm die engeren Beziehungen der Texte untereinander nahelegen.

Dabei soll versucht werden, automatisch ein PDF-Dokument zu einem Thema zu erstellen. Automatisch heisst hier vor allem, daß auch die Auswahl der Lemmata und etwaige Kürzungen von Artikeln oder das Anlegen von Glossaren, Übersetzungslisten oder Linklisten automatisch geschieht. Auch wenn in einem guided more durchaus manuelle Feinkorrekturen erlaubt werden können, besteht die zentrale Idee aus der geringsten Interaktion mit dem Menschen.

Szenario 1[Bearbeiten | Quelltext bearbeiten]

Erstellung eines Dossiers "Islam".[Bearbeiten | Quelltext bearbeiten]

  1. Der Benutzer trägt in ein Webformular "Islam" ein.
  2. Das Skript überprüft, ob der Begriff Islam existiert.
  3. Das Skript lädt die dazugehörigen Seiten der mit dem Begriff Islam verlinkten Artikel
  4. Das Skript lädt die Liste der auf den Begriff linkenden Artikel.
  5. Das Skript lädt die Kategorie:Religion und Kategorie:Arabien, die im Artikel verlinkt sind. In allen drei Punkten werden Datumsangaben und Jahre unbeachtet.
  6. Rekursion: Bis in die zweite Ebene werden auch von den durch die drei letzten Punkte gewonnenen Artikel die backlinks, whatlinkshere und kategorien ausgelesen.
  7. Durch ein /Scoring-Verfahren werden die Begriffe herausgefischt, die eine besondere Nähe zu dem genannten Begriff an Position 1 haben. Es werden Schwellwerte definiert.
  8. Artikel, die im Scoring sehr nahe zum Originalbegriff stehen, kommen in Core 1.
  9. Artikel, die im Scoring nahe zum Orignialbegriff stehen, kommen in Core 2.
  10. Artikel, die im Scoring mäßig nahe zum Originalbegriff stehen, kommen in Core 3.
  11. Artikel Core 1 werden im PDF im Volltext abgedruckt.
  12. Artikel Core 2 werden auf den Definitionsteil gekürzt (=erster Absatz, oder Bestandteil vor dem ersten Abschnitt)
  13. Artikel Core 3 werden benutzt, um eine Wörterliste (dt-en, dt-fr, ...) zu erstellen. Dazu werden die interwikis ausgewertet.

Szenario 2[Bearbeiten | Quelltext bearbeiten]

Erstellung eines Dossiers zu einer Agenturmeldung[Bearbeiten | Quelltext bearbeiten]

Beispiel:

Berlin (AFP) - Die Liberalen im Europaparlament haben gefordert, dem 
umstrittenen designierten EU-Kommissar für Inneres und Justiz, Rocco 
Buttiglione, andere Zuständigkeiten zu geben. Der Fraktionsvorsitzende 
der Liberalen, Graham Watson, sagte, Buttiglione sei als Innen- oder 
Justizkommissar ungeeignet. Der designierte EU-Kommissionspräsident 
José Manuel Durão Barroso will die Zuständigkeiten in der neuen 
Kommission aber offenbar nicht ändern. 


  1. Benutzer fügt Agenturmeldung (oder ähnlichen Text) in ein Webformular ein.
  2. Das Skript extrahiert alle Begriffe, die in der wikipedia vertreten sind. Problem: Stemming.

Wunschvorstellung (o.s.ä):

Buttiglione-Streit beschäftigt weiter EU-Fraktionen
Berlin (AFP) - Die Liberalen im Europaparlament haben gefordert, dem 
umstrittenen designierten EU-Kommissar für Inneres und Justiz, Rocco
Buttiglione, andere Zuständigkeiten zu geben. Der Fraktionsvorsitzende 
der Liberalen, Graham Watson, sagte, Buttiglione sei als Innen- oder 
Justizkommissar ungeeignet. Der designierte EU-Kommissionspräsident 
José Manuel Durão Barroso will die Zuständigkeiten in der neuen 
Kommission aber offenbar nicht ändern. 
  1. optional: Differenzierung nach Volltextsuche / Lemmaliste mit entsprechender Priorität.
  2. Aufbau eines Assoziationsnetzes, um den Kontext dieser Meldung zu erfassen
  3. Ausgabe der drei Begriffe, die am nächsten im Kontext dieser Meldung liegen
  4. Ab dann weiter wie in Szenario 1.


alt[Bearbeiten | Quelltext bearbeiten]

Digest: Wikinews-Artikel

Core 3: Lemmaliste
Core 2: Begriffe: Definitionen
Core 1: Begriffe: Volltexte
  1. . Artikel oder Liste angeben
  2. . Aus der Verlinkung die Kandidaten-Artikel auswählen ("Clustering"). (optional)
  3. . PDF wird gebacken


Inhalt:

  • Cover
  • Inhaltsverzeichnis (grob)
  • Initialer Artikel
  • Lemmaliste Core 1,2,3 (farbliche Markierung)
  • Core 2
  • Core 1
  • Stichwortverzeichnis
  • Übersetzungsliste
  • GNU FDL


Links[Bearbeiten | Quelltext bearbeiten]