Wie man Text aus PDF effizient extrahiert

Kann jemand eine Bibliothek/API empfehlen, um den Text und die Bilder aus einem PDF zu extrahieren? Wir müssen in der Lage sein, Text zu erhalten, der in vorher bekannten Bereichen des Dokuments enthalten ist, so dass die API uns Positionsinformationen über jedes Element auf der Seite geben muss. Wir möchten, dass diese Daten im xml- oder json-Format ausgegeben werden. Wir schauen uns derzeit PdfTextStream an, was ziemlich gut aussieht, aber gerne Erfahrungen und Vorschläge anderer Leute hören würde. Seit heute weiß ich es: Das Beste für die Textextraktion aus PDFs ist TET, das Textextraktionswerkzeug. TET ist Teil der PDFlib.com-Produktfamilie. PDFlib.com ist das Unternehmen von Thomas Merz. So können Sie text aus pdf auslesen wir erklären es Ihnen genau. Falls Sie seinen Namen nicht kennen: Thomas Rainer ist Autor der „PostScript- und PDF-Bibel“. TETs erste Inkarnation ist eine Bibliothek. Dass man wahrscheinlich alles tun kann, was Budda006 wollte, einschließlich Positionsinformationen über jedes Element auf der Seite. Oh, und es kann auch Bilder extrahieren. Es kombiniert Bilder, die in Stücke zerlegt sind. pdflib.com bietet auch eine weitere Inkarnation dieser Technologie, das TET-Plugin für Acrobat. Und die dritte Inkarnation ist der PDFlib TET iFilter. Dies ist ein eigenständiges Tool für Benutzer-Desktops. Beide sind (wie bei Bier) für private, nicht gewerbliche Zwecke frei nutzbar.

Und es ist wirklich mächtig. Viel besser als die eigene Textextraktion von Adobe.

  • Es extrahierte Text für mich, wo andere Tools (einschließlich Adobe’s) nur Müll ausspucken.
  • Ich habe gerade das eigenständige Desktop-Tool getestet, und was sie auf ihrer Webseite sagen, ist wahr.
  • Es hat eine sehr gute Kommandozeile. Einige meiner „problematischen“ PDF-Testdateien wurden von dem Tool zu meiner vollen Zufriedenheit bearbeitet.
  • Dies wird von nun an meine Empfehlung für alle anspruchsvollen und anspruchsvollen PDF-Text-Extraktionsanforderungen sein.


TET ist einfach großartig. Es erkennt Tabellen. Innerhalb von Tabellen identifiziert es Zellen, die sich über mehrere Spalten erstrecken. Es identifiziert Tabellenzeilen und Inhalte jeder Tabellenzelle separat. Es befasst sich sehr gut mit Silbentrennungen: Es entfernt Bindestriche und stellt ganze Wörter wieder her. Es unterstützt Nicht-ASCII-Sprachen (einschließlich CJK, Arabisch und Hebräisch). Bei der Begegnung mit Ligaturen werden die ursprünglichen Zeichen wiederhergestellt.

Extrahierte Schriften können nur eine Teilmenge der Originalschrift sein und enthalten keine Hinweisinformationen.

Die Bilder werden in ihrer ursprünglichen Version und Größe extrahiert. Bildfilter und Größenänderungen, die im PDF angegeben sind, werden nicht übernommen.
Text, der als Bild eingebettet ist, wird nicht extrahiert. Dieses Tool führt keine OCR auf dem PDF aus. Es gibt Zeiten, in denen Sie ein gescanntes PDF-Dokument bearbeiten möchten. Möglicherweise möchten Sie die Schriftgröße und die Bilder ändern, oder Sie müssen Text aus den gescannten PDF-Dokumenten extrahieren. In diesem Artikel zeigen wir Ihnen den effizientesten Weg, Text aus einem gescannten PDF mit PDFelement zu extrahieren.

PDFelement hilft Ihnen, Text aus PDFs zu extrahieren, und ermöglicht es Ihnen, OCR durchzuführen, um Ihre gescannte PDF-Datei zu bearbeiten oder Text aus einem PDF-Bild mit Hilfe von PDF-Text-Extraktor-Tools zu extrahieren. Außerdem ist die OCR-Funktion mehrsprachig, d.h. sie kann über 20 globale Sprachen erkennen.

Konvertiert PDF in andere Formate wie Excel, Text, PowerPoint, Word, Bilder und mehr. Bearbeitet PDF-Inhalte wie Schriften, Seiten, Bilder, Texte und sogar Wasserzeichen. Erstellt PDF aus einem leeren Dokument, HTML, bestehenden PDF, Bildern etc. Unterstützt den Schutz Ihres PDF-Dokuments durch die Verwendung von Passwörtern und eingeschränkten Zugriffsrechten auf die Dokumente. Die Möglichkeit, PDF-Formulare auszufüllen, einschließlich gescannter PDF-Dateien. Sie können auch Ihr eigenes PDF-Formular mit den Werkzeugen zur Formularerstellung erstellen.