Benutzer:Mr N/Vortraege/Textübernahme aus (eingescannten) Dokumenten ohne Abtippen

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Textübernahme aus (eingescannten) Dokumenten ohne Abtippen![Bearbeiten | Quelltext bearbeiten]

geplante Dauer
45 Min.

Zielgruppe[Bearbeiten | Quelltext bearbeiten]

Wikipedianer und Aktive bei Wikipedia Loves Monuments (kurz: WLM) mit wenig Vorkenntnissen im Einscannen von Dokumenten und Texterkennung.


Hintergrund und Entstehungsgeschichte[Bearbeiten | Quelltext bearbeiten]

Zum Wikipedia-Loves-Monuments- (kurz: WLM) Orga-Treffen in Weimar im Sommer 2015 stellte sich heraus, das ein Großteil der jährlichen (Vorbereitungs)arbeit aus wiederkehrenden Routineaufgaben besteht, welche unnötig viel Arbeitskraft und -zeit bindet. Anstatt diese zu automatisieren und sich dann um andere Dinge kümmern zu können, schienen einige Personen geradezu stolz auf ihre "Fleißarbeit" zu sein.

Ich schlug daraufhin vor, am konkreten Beispiel der automatisierten Textextraktion aus Denkmalslisten-PDF-Dateien, die Vorzüge einer gewissen Automatisierung aufzuzeigen. Anstelle jedes mal aufs neue die Denkmalslisten für WLM erneut abzutippen, möchte ich zum bewussten Automatisieren anregen (Scannen und Texterkennung(kurz: OCR) falls nötig, Textextraktion und PDF-Tools (Anmerkungen in PDF-Dateien, Quellenverwaltung)).

Natürlich alles mit Freie Software und Hinweis auf Wichtigkweit von OpenStandards!


Vortragsinhalt[Bearbeiten | Quelltext bearbeiten]

Inhaltsextraktion per "Copy&Paste" aus "guten" PDFs[Bearbeiten | Quelltext bearbeiten]

DETAILS: Für den Anfang also jene mit eingebetteten Text & Co. zum einfach rauskopieren

per Gui-Anwendung[Bearbeiten | Quelltext bearbeiten]

Siehe: www.pdfreaders.org

Für meine Arbeit verwend(et)e ich z.B.:

per Skript - für Freunde der Automatisierung[Bearbeiten | Quelltext bearbeiten]

Informationen über PDF-Dateien automatisiert ermitteln[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfinfo [options] [PDF-file]


automatisiert Klartext aus PDF-Dateien extrahieren[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdftotext [options] [PDF-file [text-file]]


PDF-Datei automatisiert in HTML-Datei (Webseite) umwandeln[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdftohtml [options] <PDF-file> [<HTML-file> <XML-file>]

Vorteile[Bearbeiten | Quelltext bearbeiten]
  • sämtliche Texte, Bilder etc. sollten in extra Dateien (im angegebenen Verzeichnis) extrahiert werden
  • Das Layout bleibt erhalten
DETAILS:
    • Die extrahierten PDF-Bestandteile werden in einer HTML-Datei (also eine Webseite) so eingebunden, das sie dem Layout des ursprünglichen PDFs möglichst nahe kommen
    • HTML-Dateien können (im Webbrowser) betrachtet, (in einem einfachen Texteditor) bearbeitet und automatisiert weiterverarbeitet werden


in PDF-Dateien eingebettete (dargestellte) Bilder automatisiert extrahieren[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfimages [options] <PDF-file> <image-root>

in PDF-Dateien eingebettete Anhänge automatisiert extrahieren[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfdetach [options] [PDF-file]

Beides sind PDF-Hilfsprogramme auf Basis von "poppler-utils"

PDF-Annotationen automatisiert auslesen[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfannotextractor [options] <PDF files[.pdf]>


Was tun bei Ausdrucken, Fotos & Co.?[Bearbeiten | Quelltext bearbeiten]

DETAILS: Sollte wirklich kein PDF mit einfach entnehmbaren Inhalten verfügbar sein, können ein paar Zwischenschritte helfen

Einscannen[Bearbeiten | Quelltext bearbeiten]

DETAILS: Vor allem für Dinge geeignet, die sich gut in einen Scanner legen lassen - etwas (Buch-)seiten

Tipps[Bearbeiten | Quelltext bearbeiten]

siehe Bedienungsanleitung...


Fotografie(r)en[Bearbeiten | Quelltext bearbeiten]

DETAILS: Nicht immer ist ein Scanner in der Nähe und manche Dinge - etwa Hinweistafeln - lassen sich höchstens abfotografieren

Tipps[Bearbeiten | Quelltext bearbeiten]

DETAILS: Es kommt weniger auf "hübsche Bilder" als auf gut lesbaren Text an!

auf guten Kontrast und scharfe Schrift achten[Bearbeiten | Quelltext bearbeiten]

DETAILS: Autofokus, Weißabgleich, ggf. Stativ für ruhigere Fotos verwenden etc.

für möglichst gleichmäßige Ausleuchtung sorgen[Bearbeiten | Quelltext bearbeiten]

DETAILS: Vermeidung von Schatten, Lichtreflexen, lichtbedingten Verfärbungen - vielleicht hilft der Blitz oder eine zusätzliche Lichtquelle

Verzerrungen vermeiden[Bearbeiten | Quelltext bearbeiten]

DETAILS: Reduktion von perspektivischer Verzerrungen durch geschickte Wahl der Perspektive und Kameraeinstellung.

Fotofachhandel nachfragen bzw. in einschlägigen Fotocommunities informieren[Bearbeiten | Quelltext bearbeiten]

Fotoaufbereitung[Bearbeiten | Quelltext bearbeiten]

Perspektivische Korrektur[Bearbeiten | Quelltext bearbeiten]

DETAILS: Im Gegensatz zum Scanner sind i.d.R. alle Stellen des Fotoobjektes unterschiedlich weit von der Linse der Kamera entfernt, was zwangsläufig zu einer gewissen Verzerrung führt, die es zu kompensieren gilt.

Weißabgleich[Bearbeiten | Quelltext bearbeiten]

DETAILS: Was ist Text und was Hintergrund?

Moderne "Digitalkameras" nehmen dem Fotografen schon eine Menge Einstellarbeit ab. Dennoch ist etwas Nacharbeit ratsam.

Bildschärfe[Bearbeiten | Quelltext bearbeiten]

DETAILS: Auf das richtige Mittelmaß kommt es an. Bei zu unscharfen Bildern, kann schlecht zwischen Text und Hintergrund unterschieden werden. Überscharfe Bildern werden meist von Bildrauschen gestört, was zu Fehlerkennungen führen kann.

Entsprechenden Ausschnitt wählen[Bearbeiten | Quelltext bearbeiten]

DETAILS: Es interessiert nur der Teil des Bildes, mit dem Text

"Unpaper" & Co.[Bearbeiten | Quelltext bearbeiten]

Texterkennung[Bearbeiten | Quelltext bearbeiten]

DETAILS: Häufig auch als Optical-Character-Recognition (kurz: OCR) bezeichnet

Funktionsweise[Bearbeiten | Quelltext bearbeiten]

Es wird geschaut, ob das vorliegende Bild bekannte Buchstaben enthält[Bearbeiten | Quelltext bearbeiten]

DETAILS: Hierbei sind verschiedene Alfabete, Schriftarten und Formatierungen zu berücksichtigen. Wierum der Text auf dem Bild zu sehen ist, ist ebenfalls wichtig.

Wörterraten mit Heuristik[Bearbeiten | Quelltext bearbeiten]

DETAILS: Falls Buchstaben nicht eindeutig zugeordnet werden können, wird u.a. in einer Art Wörtebuch die wahrscheinlichste Buchstabenkombination ermittel.

Von Wörtern zum Fließtext[Bearbeiten | Quelltext bearbeiten]

DETAILS: Nachdem die Klar ist in welche Richtung die Zeilen bzw. Spalten verlaufen und wie sie aneinandergereiht sind, kann der Text Zeichen für Zeichen erkannt und ausgelesen werden.

weitere Herausforderungen[Bearbeiten | Quelltext bearbeiten]

DETAILS: ...gibt es viele: Mehrspaltiger Text, Tabellen, Abbildungen im Text


Tipps[Bearbeiten | Quelltext bearbeiten]

Bilder sorgfältig vorbereiten[Bearbeiten | Quelltext bearbeiten]

DETAILS: Texte sollten nicht verzerrt und die Buchstaben klar erkennbar sein. Möglichst mit schwarz/ weiß- Bildern arbeiten, damit die Unterscheidung von Text und Hintergrund leichter fällt. Mehrfarbige Hintergründe und Texte machen es unnötig schwer.

Bei komplexeren Layouts einzelene Abschnitte nacheinander abarbeiten[Bearbeiten | Quelltext bearbeiten]

DETAILS: Hierbei am besten auch gleich auf die richtige Drehung des Bildausschnittes achten.


Training für die Texterkennung[Bearbeiten | Quelltext bearbeiten]

DETAILS: Auch die OCR-Software musste erst lesen "lernen". Dies geschieht in der Regel mit sogenannten Trainingsdaten. Diese werden meist für die gebräuchlichsten Schriftarten in der jeweiligen Software gleich mitgeliefert. Manche Texterkennungssoftware kann aber auch auf neue Schriftarten trainiert werden.


Tools/ Werkzeuge[Bearbeiten | Quelltext bearbeiten]

gscan2pdf[Bearbeiten | Quelltext bearbeiten]

DETAILS: recht einfach gehalten

Yagf[Bearbeiten | Quelltext bearbeiten]

DETAILS: sehr einfach gehalten

OCRFeeder[Bearbeiten | Quelltext bearbeiten]

DETAILS:

  • Scannen (einschließlich rudimentärer Bildbearbeitungstools)
  • Texterkennung (unter Berücksichtigung des Layouts)
  • Export nach LibreOffice (erkannter Text + enthaltene Bilder)

weitere (PDF-)Tools[Bearbeiten | Quelltext bearbeiten]

PDF-Betrachter[Bearbeiten | Quelltext bearbeiten]

DETAILS: siehe: http://pdfreaders.org/

PDFs bearbeiten[Bearbeiten | Quelltext bearbeiten]

mehrere Scans zu einem PDF zusammenfügen[Bearbeiten | Quelltext bearbeiten]

DETAILS: gscan2pdf

Seiten von PDFs und Metadaten ändern[Bearbeiten | Quelltext bearbeiten]

DETAILS:

  • pdfmod [Dateiname]
  • pdfshuffler [file1] [file2] ..

verschiedenes[Bearbeiten | Quelltext bearbeiten]

DETAILS:

  • pdfchain
  • pdftk

PDFs vergleichen[Bearbeiten | Quelltext bearbeiten]

DETAILS:

  • diffpdf [file1] [file2]
  • comparepdf [OPTIONS] file1.pdf file2.pdf

Siehe auch die beiden LinuxUser-Zeitschriftenartikel:

  • Spurensuche - Unterschiede in PDF-Dokumenten finden[1]
  • Papierlos - Paperwork im Kampf gegen wachsende Aktenberge[2]

Annotations- und Literaturverwaltung[Bearbeiten | Quelltext bearbeiten]

DETAILS: Für Erstellung, Bearbeitung und Weiterverarbeitung von (nachträglichen) Anmerkungen in PDF-Dateien sowie Ordnung solcher Dateien

Literaturverwaltungsprogramme gibt es viele, doch nicht alle unterstützen offene Standards und nur wenige sind Freie Software. Frei wie das Recht auf Freie Rede, nicht wie kostenfrei.

Docear - Literaturverwaltung per Mindmap[Bearbeiten | Quelltext bearbeiten]

Zum Einsatz kam die neueste Betaversion (1.2), die ich auch zur Vorbereitung meiner WikiCon-Beiträge verwendete.

www.docear.org

Zotero - gemeinsame Literaturverwaltung per Plugin für Webbrowser und Textverwaltung[Bearbeiten | Quelltext bearbeiten]

Ein lieb gewonnener Helfer Zur Literaturrecherche und zum Austausch mit Kommilitonen im Studium.

www.zotero.org

in PDFs (automatisierbar) suchen[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfgrep [OPTION...] PATTERN FILE...

verborgene Überarbeitungen zeigen[Bearbeiten | Quelltext bearbeiten]

DETAILS: pdfresurrect file.pdf [-w][-q][-s][-i]


OrderCrazy's Projekt für die bayrische WLM[Bearbeiten | Quelltext bearbeiten]

https://hochnebel.net/denkmalparser/


Hinweis auf andere Institutionen und Projekte[Bearbeiten | Quelltext bearbeiten]


Hinweis auf meinen anderen Vortrag[Bearbeiten | Quelltext bearbeiten]

  1. Frank Hofmann: Unterschiede in PDF-Dokumenten finden » LinuxCommunity. In: LinuxCommunity. Abgerufen am 26. September 2015.
  2. Karsten Günther: Paperwork im Kampf gegen wachsende Aktenberge » LinuxCommunity. In: LinuxCommunity. Abgerufen am 26. September 2015.