Ob Radio, Video oder Artikel – am Anfang steht fast immer Textarbeit. Sebastian Meineck erklärt ein paar simple Werkzeuge für die Recherche mit PDF-Dokumenten.
Salzburg – Sebastian Meineck zeigt in der
„Journalist:in“ drei einfache Werkzeuge zur Arbeit mit PDF-Dokumenten:
1. pd3f.com: Der PDF-Befreier
Die Software pd3f befreit Texte aus PDFDateien. Denn oft lassen sich solche Texte nicht mit der Maus markieren, kopieren und durchsuchen. Mit pd3f kommt gleich ein Bündel an Werkzeugen zum Einsatz, die Inhalte solcher Dateitypen zugänglich zu machen.
Wie funktioniert das?
Zuerst erkennt pd3f den Text mit Hilfe optischer Zeichenerkennung, auch bekannt als OCR (Optical Character Recognition). Außerdem sucht das Tool nach Silbentrennungen und entfernt sie. Das Ergebnis ist ein reiner Fließtext. Die quelloffene Software stammt vom deutschen Entwickler Johannes Filter und wurde vom Förderprogramm Prototype Fund finanziert.
Was muss man beachten?
Die Installation ist eher etwas für Fortgeschrittene und verlangt ein paar Handgriffe im Terminal. Eine Anleitung gibt es auf pd3f.com. Wer das Werkzeug einfach nur schnell ausprobieren möchte, kann das mit Klick auf „Jetzt ausprobieren“ im Browser tun. Vertrauliche, bisher unveröffentlichte Dokumente sollte man dort aber nicht hochladen.
2. Sublime Text: Minimalismus und Geschwindigkeit
3. Draftable: Adlerauge für PDFs
Zur Erklärung
Sebastian Meineck ist Tech-Journalist in Berlin. Er schreibt regelmäßig in der „Journalist:in“ über die spannendsten Werkzeuge für die Onlinerecherche.