Wikipedia Diskussion:Archiv/PDF-Generator

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

/Vorgeschichte /Meinungen zum Skript

...bezüglich Features können hier oder auf SourceForge angebracht werden

/Archiv

Modularisierung[Quelltext bearbeiten]

Es wäre klasse, wenn das Script eine Sammlung von TeX-Dateien ausspuckt, die zu einem Dokument gehören. Modularisierung in der Form vielleicht, dass ein Hauptdokument die nötigen Definitionen enthält und der / die bearbeiteten Artikel als einzelne Dateien dort einfach eingebunden werden. Kann auch alles in einer Datei stehen ... das sollte aber eigentlich für TeX das selbe sein. Harko 18:10, 5. Mär 2004 (CET)
Da hast du recht, wenn man mehrere Artikel in einem TeX-Dokument haben will, muss das natürlich modularisiert werden. Man könnte also einfach den TeX-Header im Skript weglassen, und eine globale .tex-Datei schreiben, die dann die anderen \include{}t. -- Stw 18:35, 5. Mär 2004 (CET)
Wenn das Script die globale Datei aus einer vorhandenen (vielleicht mit der vielsagenden Endung .tpl) erzeugt, also diese tpl-Datei einliest und daraus das globale Dokument erzeugt, dann kann sich der erfahrene TeXaner dransetzen und ein schickes Layout für den resultierenden Reader basteln ... solange er einige grundlegende Regeln beachtet (eben die Sachen, die das Script voraussetzt). Auf diese Weise kann auch die Sache mit der Lizenz gelöst werden, die liegt einfach als Datei immer irgendwo rum und wird zwingend immer in die Globaldatei eingebaut. Harko 18:52, 5. Mär 2004 (CET)

Zerosyntax[Quelltext bearbeiten]

Wie aufwändig ist es mit python, eine Seite wie Wikipedia:WikiReader/Islam auszulesen, alle dort liegenden Links zu erfassen und in der dort liegenden Reihenfolge die verlinkten Artikel in ein gemeinsames PDF zu legen? -- Presroi 23:11, 5. Mär 2004 (CET)

Am Ende also:

wiki2latex2pdf Wikipedia:Wikireader/Islam

Layout[Quelltext bearbeiten]

Ich habe mal testweise mit der 0.9 de:Islam darstellen lassen. Der Artikel wird auf 6 Seiten dargestellt, da tex sehr großzügig mit Absätzen umgeht. Das sieht gut aus, ist aber verschwenderisch. Wie kommt man zu einem Layout (ggf. sogar zweispaltig?), das näher an den Rand geht und auch sonst textmäßiger ist? -- Presroi 21:04, 8. Mär 2004 (CET)

Dafür ist die Option "LaTeX-Template" vorgesehen. Diese fügt die Dateien template-head.tpl und template-tail.tpl vorne bzw. hinten an. Momentan gibt es nur ein Template namens "article".
Siehe: http://lart.info/~stw/wiki2pdf/article-head.tpl und http://lart.info/~stw/wiki2pdf/article-tail.tpl . Wenn du willst kannst du die bearbeiten und mir mailen. Hast du einen Server zum Testen? -- Stw 23:10, 8. Mär 2004 (CET)
Ich habe nun das Default-Layout geändert und ein Zweispalten-Layout hinzugefügt. -- Stw 23:18, 13. Mär 2004 (CET)
Scheinbar muss sich mal jemand (wohl ich - aber eigentlich hoffentlich doch nicht) um das Layout des Resultates kümmern. Die Links und Bibliographie am Ende wird ebenso im Zweispaltensatz gefertigt, was mindergut aussieht wenn die Links einfach zu lang sind für eine Spalte ... die kleben z.B. beim Artikel de:LSD direkt am rechten Seitenrand. Es wäre sinnvoll, die Bibliographie und die Weblinks entweder in kleinerer Schrift oder einspaltig über die komplette Seitenbreite zu setzen. Harko 23:02, 24. Mär 2004 (CET)
Ich gebe zu, dass das Layout für Weblinks alles andere als hübsch ist. Nur: Wie erkennt ein Computer mit IQ = 0 das Literaturverzeichnis? 1. Es heisst in jeder Sprache anders, und 2. ist die Formatierung auch in Artikeln der selben Sprache nicht einheitlich. Geistesblitze erbeten... Dass die Links bei LSD nicht umgebrochen werden, ist ein Bug, dem ich auf den Fersen bin. -- Stw 20:46, 25. Mär 2004 (CET)
Hmm, also wenn Computer IQ=0 hat, dann sollte man eine entsprechende Lösung finden können. Im Zweifel den pragmatischen Ansatz (bin Dipl.Ing.(FH), deshalb darf ich den wählen), der darauf hinausläuft, eine Liste mit Überschriften zu erzeugen, die im TeX-Quelltext dann in voller breite gesetzt werden. Es würden also alle Bibliographien gefunden werden, die einerseits eine Form von Überschrift sind und andererseits bestimmte Worte enthalten, also z.B. "Bibliographie" oder "Literatur" oder so ... achja, sie sollten nicht die erste Überschrift des Artikels sein :)
Letztlich wird diese Lösung nicht alle Fälle einer Bibliographie und Weblinkliste erfassen, doch den größten Teil, und diejenigen, welche noch nicht erfasst werden, die kann man ja im Original ein wenig anpassen ... denn so viele Möglichkeiten eine Bibliographie zu überschreiben gibt es ja nun wirklich nicht. Harko 02:35, 31. Mär 2004 (CEST)

Bibliographie[Quelltext bearbeiten]

Literaturangaben sind überhaupt ein großes Problem. Wikipedia-Artikel sind ja eher kurz, in einem Wiki-Reader würde dann circa jede 2. Seite das 2-spaltige-Layout unterbrochen. Die Literaturabschnitte müssten also gesammelt ans Ende gestellt werden. Wenn 2 Teilartikel die selbe Quelle zitieren, wird dass dann natürlich erst richtig offensichtlich. Ein reiner Textvergleich reicht wahrscheinlich nicht aus, um identische Quellen zu finden.

Siehe auch Wikipedia:Zitationen, wo zur Zeit eine neue Möglichkeit für Literatur- und Quellenangaben diskutiert wird. <citation> ist eine gute Idee wenn es auch die Möglichkeit gäbe sie zu bennenn und später zu referenzieren. Letzlich bräuchte es einen Ort für die <citation>-Erfassung, die dann von mehreren Artikeln genutzt wird: z.B. Special:Bibliography/Artikel. Referenziert würde dann etwa mit <citation ref="Artikel/Name" />, was eine globale Adressierung erlauben würde. Dass sich solche Einträge leichter sortieren, filtern und verschieben lassen, ist eh klar.
-- Herbert 18:24, 14.1.2006 (CET)

Crosslanguage[Quelltext bearbeiten]

Wäre es möglich, gemischtsprachige Seiten anzulegen, etwa de:Islam en:Islam -- Presroi 21:04, 8. Mär 2004 (CET)

Kurze Antwort: Ja. Lange Antwort: man müsste LaTeX dazu bringen, mitten im Dokument die Sprache umzuschalten. Ich sehe gerade, dass es dafür offenbar die Option \selectlanguage{} gibt. Ich setz' das mal auf die (imaginäre) TODO-Liste, aber versprechen tu ich nichts... -- Stw 17:48, 10. Mär 2004 (CET)
oh, vielen Dank. Wenn, dann neige ich dazu, diesem Wunsch die niedrigste Priorität zuzuordnen. -- Mathias Schindler 17:51, 10. Mär 2004 (CET)

Einzelne Artikel[Quelltext bearbeiten]

Ich würde das Skript auf dem Server gerne für den Ausdruck einzelner Artikel benutzen. Dazu müsste man jedoch das Titelblatt und die Lizenz weglassen und im Gegenzug in der Fußzeile einen Hinweistext haben. -- Nichtich 18:58, 30. Apr 2004 (CEST)

Ich hab jetzt eine "minimal"-Vorlage hinzugefügt, ohne GFDL, aber mit einem kleinen Hinweistext auf der letzten Seite. -- Stw 11:44, 10. Mai 2004 (CEST)[Beantworten]

Kategorien verstecken[Quelltext bearbeiten]

Wäre es möglich, eine Option einzubauen, die Kategorien zu verstecken? -- Furioso 02:09, 20. Okt 2004 (CEST)

Gliederung der Artikel[Quelltext bearbeiten]

Wäre es möglich eine Art Gliederung (am besten nummerisch) für die Artikel zu Generieren. Mir schwebt gerade vor, das man so z.B. den Wikipedia:WikiReader/DDR sehr einfach machen könnte. -- sk 17:04, 6. Nov 2004 (CET)

Autorenbenennung[Quelltext bearbeiten]

Ich wünsche mir noch und möchte vorschlagen, unter dem Artikeltitel den/die Autoren aufzuführen, entweder

  • die wichtigsten (wie das festgestellt werden soll, weiß ich momentan auch nicht), oder
  • alle oder
  • wenigstens den initialen und den letzten Seitenbearbeiter. --Wikinaut 18:36, 30. Dez 2004 (CET)

Wikibooks auch?[Quelltext bearbeiten]

Das Generieren der PDFs müsste doch auch für Wikibooks funktionieren und würde dort besonderen nützlich sein, da dadurch schöne Dateien zum Ausdrucken erzeugt werden können. Ich habe mal den Sourcecode angeschaut und denke es müsste allein durch Konfiguration in site.cfg und wikipedia.cfg möglich sein, auch Artikel aus Wikibooks zu generieren, oder? Siehe auch b:Wikibooks:Projekt#PDF-Export --Centic 01:04, 5. Jan 2005 (CET)

... und Bugreports bitte hier oder auf SourceForge melden!

Sonderzeichen in Lesezeichen[Quelltext bearbeiten]

Sonderzeichen in Lesezeichen werden derzeit als #234; dargestellt. -- Mathias Schindler 19:08, 17. Mär 2004 (CET)

Linküberlänge[Quelltext bearbeiten]

Überlange Links werden derzeit nicht umgebrochen. Das führt zu unschönen Situationen. -- Mathias Schindler 18:01, 17. Mär 2004 (CET)

arabische Zeichenreihenfolge[Quelltext bearbeiten]

Tauchen arabische Zeichenfolgen auf (right-to-left), werden sie im PDF nachher in falscher Reihenfolge dargestellt. Ist diese Stelle hier okay oder wäre ein eintrag im Bug report auf sf.net besser? Grüße -- Mathias Schindler 17:51, 17. Mär 2004 (CET)

Ich hab das jetzt mit Hilfe von fribidi implementiert. Ist eine ziemlich unelegante Lösung und verlangt Handarbeit, wenn man das Skript auf einem Server installiert, aber es scheint zu funktionieren. -- Stw 12:57, 20. Mär 2004 (CET)
Huhu Stw, vielen Dank für die größe Mühe bei diesem Partikularproblem. Die Zeichenreihenfolge ist nun richtig, aber die typographie ist seltsam. In der arbischen Schrift werden i.d.R Buchstaben verkürzt, wenn sie in der Mitte stehen, Eine Lösung oder gar eine Ahnung, woran das liegt, habe ich leider nicht.:
isolierte Form (wiki2pdf)
eigentlich korrekte Form (mozilla)
-- Mathias Schindler 13:10, 20. Mär 2004 (CET)

defektes PDF[Quelltext bearbeiten]

Hab' gerade mal den Artikel 'Kinderkardiologie' durchlaufen lassen, leider konnte die PDF-Datei wg. Fehlern vom Reader nicht geöffnet werden (Beim Öffnen dieses Dokuments ist ein Fehler aufgetreten. Die Datei ist beschädigt und kann nicht repariert werden.) :-( - Nb 23:40, 17. Nov 2004 (CET)

Das Gleiche Problem tritt mit fast jedem Artikel auf, den ich bisher durch den PDF-Creator gejagt habe. Kann mir nicht erklären warum... vielleicht wurde die Content-Flag nicht erzeugt, so dass der Reader nicht das korrekte Format erkennen kann... testet zum Beispiel mal Transrapid in PDF umzuwandeln. dark 00:41, 1. Dec 2004 (CET)


Habs grad mal ausprobiert, funtioniert auch teilweise schon ganz gut, aber:

  • Das Web-Frontend [1] Hat Probleme mit Umlauten. Im Ie6 unter Windows hab ich die Rhätische Bahn eingetragen, dann kommt die Fehlermeldung Warning: Your browser didn't send your text in UTF-8! I might be unable to get the articles.. Über den Umweg der Weiterleitungsseite RhB gehts dann aber, Cool :-)
Da muss ich wohl dem IE die Schuld geben, der respektiert die accept-encoding Option offensichtlich nicht. Einfache Lösung: Mozilla verwenden. Komplizierte Lösung: PHP-Skript anpassen, so dass das Datenformat erkannt wird und nach UTF-8 umgewandelt wird. -- Stw 22:32, 13. Mär 2004 (CET)
  • Der Artikel Schmalspurbahn macht dann aber Probleme, irgendwie wird da anscheinend ungültiger Tex-Code erstellt, im Log sind jede Menge Fehlermeldungen.
Ist jetzt geflickt -- Stw 12:11, 18. Mär 2004 (CET)
  • Der Font im PDF ist unter Windows relativ unleserlich.
Das kann ich nicht nachvollziehen, auch unter Windows mit verschiedenen Acrobat-Reader Versionen nicht.

... wenn jetzt noch der Quellcode in ein CVS kommen würde ... -- LosHawlos 16:39, 13. Mär 2004 (CET)

Ist mittlerweile da, siehe [2] -- Stw 12:11, 18. Mär 2004 (CET)

Gar kein Pdf...[Quelltext bearbeiten]

.... auf http://wiki.auf-trag.de/ oder?--^°^ @

  • Ich habe dasselbe Problem. Roffle 15:14, 12. Apr 2005 (CEST)

Das Problem ist, dass der Mediawiki-Code immer wieder ändert und ich im Moment nicht Zeit habe, jeweils Anpassungen an meinem Code vorzunehmen. In diesem Fall ist das konkrete Problem, dass Bilder sowohl von de.wikipedia als auch von commons eingebunden werden können, und man kann das nicht unterscheiden, sondern müsste nach trial-and-error zuerst das Bild von der dt. WP versuchen zu holen, dann von Commons. Ich weiss nicht, ob ich das wiki2pdf-Script noch weiterentwickeln werde, denn diese Doppelspurigkeit (für jedes neue Feature in MediaWiki muss ich das Rad neu erfinden) ist letzten Endes alles andere als effizient. Sobald wir einen guten wiki2xml-Parser haben, könnte man den verwenden, um alle Formate zu erzeugen (HTML, LaTeX, PDF...) --stw  10:21, 13. Apr 2005 (CEST)

Hi, nur mal so nachgefragt. Hat sich jemand mal Gedanken gemacht, nach XML zu konvertieren (was es ja fast schon ist) und mittels XSLT und FOP PDF draus zu machen? Gibt's schon Gedanken zu ner XML-API (wie z.B. ebay das gerade (gegen Geld!!) anbietet? Falls ja könnte ich vielleicht nen Fachinformatiker Azubi Arbeit draus machen. Falls jemand was weiss bitte kurze Nachricht bei Softeis 23:05, 15. Mär 2004 (CET)

Da gibts schon ein ähnliches Projekt, siehe [3]. Die PDF-Erstellung mit FOP scheint eine elegant Lösung zu sein, WENN die Texte im XSLFO Format vorliegen. Ebay bietet eine XML-API an? Ich dachte das wäre eine Auktionsseite... -- Stw 12:11, 18. Mär 2004 (CET)

wikipdf oder wiki2pdf?[Quelltext bearbeiten]

Ich habe hier http://sourceforge.net/projects/wikipdf und http://wiki2pdf.sourceforge.net/, ist das ein Projekt? Oder gibt es hier zwei unterschiedliche Implementierungen? --Centic 00:40, 5. Jan 2005 (CET)

Soweit ich das sehe ist wikipdf die Fortführung des eingeschlafenen wiki2pdf. -- Herbert 18:31, 14.1.2006 CET

Am eigenen Rechner ausführen[Quelltext bearbeiten]

Ich würde gerne an wikipdf etwas mitarbeiten und habe deshalb mal probiert, die Skripte am eigenen Rechner auszuführen. Dazu habe ich mir die aktuelle CVS-Version von wikipdf.sourceforge.net geholt und versucht, diese zum Laufen zu bringen. Nach einigen Fehlversuchen hat es dann einigermassen geklappt, folgende Punkte waren etwas kniffelig:

  1. Die Beschreibung zu /tmp in INSTALL meint ein Unterverzeichnis neben "src", nicht das globale Verzeichnis /tmp!
  2. Bei meiner Tetex-Distribution (Gentoo, tetex-2.0.2) fehlt die Datei utf8.def, daher kam ein Fehler ! LaTeX Error: File `utf8.def' not found., erst durch Installation des Gentoo-Paketes latex-unicode und Ändern von utf8 in utf8x in der Datei commondefs.tex funktionierte es! Anscheinend enthält tetex-2.0.2 die entsprechenden Dateien noch nicht.
  3. Es scheint es funktionieren nur kleinere Artikel, bei allen größeren bekomme ich diverse Fehlermeldungen, evtl. ist einen andere Version von PHP, Python oder einem anderen Paket erforderlich. Ich habe php-5.0.3, python-2.3.4, tetex-2.0.2, apache-2.0.52, was sollte man haben damit es ordentlich funktioniert?

Fehlermeldungen sind unter anderem:

Getting page de:Wikipedia%3AWikiReader/Neuseeland
Traceback (most recent call last):
 File "./wiki2latex.py", line 497, in ?
   tex_code += doWiki(wikicode)
 File "./wiki2latex.py", line 448, in doWiki
   text = doImages(text)	
 File "./wiki2latex.py", line 423, in doImages
   getpage.getImage(code, im, sys.argv[3])
 File "/home/dstadler/wikipdf/wikipdf/src/getpage.py", line 92, in getImage
   uri = name2url(get_host_part(config_baseurl[code]) + url.group(1))
AttributeError: 'NoneType' object has no attribute 'group'

oder

Getting page de:Neuseeland
Traceback (most recent call last):
 File "./wiki2latex.py", line 497, in ?
   tex_code += doWiki(wikicode)
 File "./wiki2latex.py", line 437, in doWiki
   text = doTables(text)
 File "./wiki2latex.py", line 339, in doTables
   tp.feed(text)
 File "/usr/lib/python2.3/HTMLParser.py", line 108, in feed
   self.goahead(0)
 File "/usr/lib/python2.3/HTMLParser.py", line 150, in goahead
   k = self.parse_endtag(i)
 File "/usr/lib/python2.3/HTMLParser.py", line 329, in parse_endtag
   self.handle_endtag(tag.lower())
 File "/home/dstadler/wikipdf/wikipdf/src/ClientTable.py", line 669, in handle_endtag
   method()
 File "/home/dstadler/wikipdf/wikipdf/src/ClientTable.py", line 812, in end_td
   if not self._ps.in_td: raise ParseError, "end of TD before start"
ClientTable.ParseError: end of TD before start

aber zum Beispiel Wikibooks funktioniert und auf http://wiki.auf-trag.de/ funktionieren alle drei Artikel! --Centic 00:40, 5. Jan 2005 (CET)

Bilder und Lizenzen[Quelltext bearbeiten]

Wie wollt ihr das mit den Bildlizenzen handhaben? Es gibt ja einige andere Lizenzen außer GDFL (z.B. Creative-Commons) und deren Lizenzen müssten bei den Bildern vermerkt werden. Außerdem gibt es Bedingungen wie Namensnennung des Urhebers (AFAIK auch bei GDFL) die umgesetzt werden sollten. Habt ihr da schon eine Lösung? --Habakuk <>< 16:15, 12. Jan 2005 (CET)

In vielen Büchern gibt es als Anhang ein Liste mit Bildnachweisen, ähnlich zu Quellennachweisen. Wie wäre es damit? --Kako 14:40, 15. Mai 2006 (CEST)[Beantworten]

Hallo allerseits. Ich bin vor einigen Monaten auf die Idee gekommen, daß Wikipedia-Artikel von LaTex gesetzt werden sollten, um diese drucken zu können (oder sie anschließend in PDF umzuwandeln). Wie ich sehe, habe einige hier schon die gleiche Idee. Bitte schreibt mir mal, sofern es bereits ein diesbezügliches Projekt gibt... Red Rooster 17:41, 28. Jun 2006 (CEST)

Schau mal zwei Überschriften höher wikipdf an: "WikiPDF is a mediawiki extension based on Wiki2PDF that adds PDF/LaTeX features to mediawiki. Wiki2PDF is a python script to convert multiple articles of a mediawiki based wiki (pre-configured to use with www.wikipedia.org) to a single LaTeX or PDF file"--Plaicy 16:53, 1. Jul 2006 (CEST)

Mein Problem: Mein Gitarrenkurs auf den Wikibooks enthällt seeehr viele Bilder. Ich möchte die Seiten aber gerne neu formatieren, so dass alle schön auf eine Din-A-4-Seite passen. Mir graut es davor noch einmal alles in Corel-Draw umschreiben zu müssen, was einfach viel Arbeit macht. Fällt euch da etwas einfacheres ein? Schön wäre es, wenn jemand eine Möglichkeit sieht, ein komplettes Buch als z.B. Open-Office-Dokument zu speichern, wo alle SVG-Dateien auch als Vektorgrafik ausgegeben werden. Das Nachformatieren solch eines Dokumentes wäre dann um ein Vielfaches leichter. So hat man 10-Fache Arbeit.

  • Texterstellung
  • Bilder als SVG zeichnen
  • Common upload
  • Wikiformatierung
  • Text überarbeiten (lassen)
  • Text wieder runterladen
  • Bilder einzeln als SVG runterladen
  • neues Dokument beginnen
  • Bilder einzeln in ein Dokument importieren
  • alles nochmal formatieren (Sau-Arbeit!)
  • und dann wieder als PDF ausdrucken...

Irgendwie gefällt mir der gesammte Workaround nicht. Da geht viel Luft bei verlohren, die ich eigentlich für das Projekt selbst brauche. Dabei könnte man doch mit einem gescheiten XSLT die gesamten Daten in ein Open-Office-Dokument (incl. SVG statt PNG konvertieren) wo dann das Nacharbeiten viel einfacher vonstatten ginge. Ebenso ein PDF, welches man sich konviertiert wäre um einiges einfacher zu bearbeiten, wenn die Bilder dort als SVG importiert würden. (Denn wozu mache ich mir eigentlich die Mühe alle Bilder in SVG zu zeichnen??? ) --Mjchael 23:03, 1. Feb. 2007 (CET)