INFO: Dieses Forum nutzt Cookies...
Cookies sind für den Betrieb des Forums unverzichtbar. Mit der Nutzung des Forums erklärst Du dich damit einverstanden, dass wir Cookies verwenden.

Es wird in jedem Fall ein Cookie gesetzt um diesen Hinweis nicht mehr zu erhalten. Desweiteren setzen wir Google Adsense und Google Analytics ein.


Antwort schreiben 

PDF-Dateien als String einlesen und verarbeiten



Wenn dein Problem oder deine Frage geklärt worden ist, markiere den Beitrag als "Lösung",
indem du auf den "Lösung" Button rechts unter dem entsprechenden Beitrag klickst. Vielen Dank!

13.12.2016, 10:04
Beitrag #1

F.Bi Offline
LVF-Gelegenheitsschreiber
**


Beiträge: 152
Registriert seit: Oct 2007

LabView 2016
2007
EN

55218
Deutschland
Question PDF-Dateien als String einlesen und verarbeiten
Ich lese mit Hilfe der PDFBox-0.7.2.dll PDF-Fertigungsberichte von einer Glatt-Maschine als Text ein und suche darin bestimmte Angaben.
Infos PDFBox: http://www.codeproject.com/KB/string/pdf2text.aspx
http://forums.ni.com/t5/Example-Program-...-p/3534906
http://sourceforge.net/projects/pdfbox/files/

Jetzt soll das auch mit PDF-Fertigungsberichten einer Bohle-Maschine geschehen, allerdings gibt es damit Probleme.

Der String, denn ich über die PDFBox-dll einlese, enthält diesmal keine Umbrüche oder sonstige Steuerzeichen - der Text ist im Prinzip ein Bandwurm. Anfang und Ende der Einträge sind nicht erkennbar. Deshalb ist ein Suchen nach bestimmten Begriffen bzw. den darauf folgenden Variablen "unmöglich". Der Bericht scheint aus Tabellen zu bestehen und die gesuchten Variablen stehen nicht direkt hinter dem entsprechenden Klartext-Begriff, dazwischen befinden sich unbestimmt viele Zeichen. Die original PDF-Berichte darf ich leider nicht veröffentlichen.

PDFBox-0.7.2 kann scheinbar die Tabelle bzw. die zwangläufig vorhandenen Steuerzeichen nicht interpretieren bzw. einlesen / ausgeben. Version 1.7.0 und 1.8.7 konnte ich nicht mit LabVIEW nutzen.

Nun meine Fragen:

Gibt es eine Möglichkeit, die Steuerzeichen mit PDFBox einzulesen?

Als Alternative zur PDFBox-dll habe ich pdftotext (https://en.wikipedia.org/wiki/Pdftotext - open source command-line) und XpdfText (http://www.glyphandcog.com/XpdfText.html) zum Einlesen von textbasierten PDF-Dateien gefunden, wobei bei pdftotext der Umweg über eine txt-Datei genommen werden muss.
Für XpdfText werden Run Time Licenses benötigt, für pdftotext (GNU) auch?

Irgendwo im Internet hatte ich vor längerer Zeit auch was von einer Adobe Acrobat-dll gelesen, ich finde die Seite aber leider nicht mehr. Diese DLL müsste in einem Acrobat (nicht Reader) enthalten sein. Falls diese in Acrobat Standard enthalten ist, komme ich einfacher dran, als an Xpdf Lizenzen.

Gibt es weitere (freie) Alternativen?

Gruß
Frank
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitieren to top
Anzeige
Antwort schreiben 


Möglicherweise verwandte Themen...
Themen Verfasser Antworten Views Letzter Beitrag
  .NET Events in LabView verarbeiten Alex Egg 1 5.534 31.10.2019 18:22
Letzter Beitrag: IchSelbst

Gehe zu: