• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

Okular scheitert bei Suche

gm2601

Advanced Hacker
Hallo Gurus,

was mache ich falsch, bzw. wie kann ich Okular dazu bringen in einer "unwilligen" Datei erfolgreich zu suchen?

Code:
pdfinfo Jan.pdf 
Title:          Untitled
Author:         Unknown
Creator:        Unknown
Producer:       XEP 4.19 build 20110414
CreationDate:   Wed Jan  6 10:56:57 2016
ModDate:        Wed Jan  6 10:56:57 2016
Tagged:         no
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          3
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      25348 bytes
Optimized:      no
PDF version:    1.4
Hat das etwas mit dem Producer "XEP" zu tun, denn ich habe genügend PDFs bei denen die Suche funktioniert.?
 
OP
gm2601

gm2601

Advanced Hacker
Keine Idee?

Darf das nicht gehen, wenn die Datei so vorgegeben ist, oder gehört diese Frage zu den "Pfuis", nach denen man nicht öffentlich fragt?
 
gm2601 schrieb:
Keine Idee?

Darf das nicht gehen, wenn die Datei so vorgegeben ist, oder gehört diese Frage zu den "Pfuis", nach denen man nicht öffentlich fragt?

Ich glaube eher, dass das niemand wirklich beantworten kann.
PDF ist in den Jahren zu einem Mysterium herangewachsen und man deshalb nicht sagen kann, ob Tags von Adobe
1. vom erzeugenden Programm nicht oder falsch angewandt wurden
2. von Okular falsch interpretiert werden oder
3. deine Datei gar nur ein jpg ist und gar keinen Text enthält.

Schwer zu sagen ...
Du kannst das nur ergründen, in dem du unter Windows mit dem original Adobe reader deine Datei öffnest und nach Text suchst.

Gruß
Gräfin Klara
 
OP
gm2601

gm2601

Advanced Hacker
Hallo Gräfin,

es ist eine mit pdftk zusammengefasste Datei, die alle meine Kontoauszüge für 2016 enthält, das Phänomen tritt aber auch bei jeder Einzeldatei auf. Die Frage ob Text oder nicht, ist gar nicht so einfach. Markiere ich zB das Wort "SDD Lastschr", das regelmäßig auftaucht, dann wird mir Text wie auch Bild zum Kopieren in die Zwischenablage angeboten. Der Text, danach in eine Konsole, kwrite, oowriter, browser-plugin kopiert, zeigt sich dann als "paa iastschr". :???:
WIN habe ich schon lange nicht mehr und 42.2 scheint mit acroread keine glückliche Ehe mehr zu führen.

Danke für etwas Licht in der Angelegenheit, andere Hinweise weiterhin willkommen.
Klar, ich habe die gesuchten Begriffe mittlerweile durch intensives "Beäugen" gefunden, aber "state of the art" ist das nicht.
 
gm2601 schrieb:
... das Phänomen tritt aber auch bei jeder Einzeldatei auf
... zeigt sich dann als "paa iastschr"
Aha, nun wissen wir, dass das pdftk richtig zusammengefügt hat UND ein Text vorhanden ist.
Dass Okular Text und Bild zum Kopieren anbietet, ist positiv.

Ich würde folgendes probieren:
Der beste pdf reader unter Linux ist im Firefox eingebaut.
Öffne deine pdf mit firefox und versuche den Text mit Ctrl/F zu finden.
Wenn das funktioniert, dann können wir das Problem lösen

Gruß
Gräfin Klara
 
OP
gm2601

gm2601

Advanced Hacker
Hallo Gräfin,

DANN können wir das Problem vermutlich nicht lösen, denn Firefox (52.1.0-57.6.1), den meinte ich unten mit "browser-plugin", zeigt(e) sich so "unfähig" wie die anderen Programme auch.
 

harley

Hacker
gm2601 schrieb:
Markiere ich zB das Wort "SDD Lastschr", das regelmäßig auftaucht, dann wird mir Text wie auch Bild zum Kopieren in die Zwischenablage angeboten. Der Text, danach in eine Konsole, kwrite, oowriter, browser-plugin kopiert, zeigt sich dann als "paa iastschr". :???:

Das klingt für mich nach einem Bild-PDF mit unsichtbarem Text als Overlay. Der Text scheint dabei nicht mit dem Bild übereinzustimmen – sei es, dass dieser nicht 1:1 übereinander liegt, sei es, dass der Text vollkommen vom Bildinhalt abweicht. Wenn Du im PDF alles markierst [Strg+A] solltest Du abschätzen können, ob der markierte Text mit dem Bild im Format harmonisiert. Wenn Du einen größeren Abschnitt (am besten am Anfang der Seite als Text kopierst und Dir diesen Inhalt anschaust (kwrite, LibreOffice etc.) solltest Du überprüfen können, ob das PDF sinnvollen Text enthält.

Wenn Du soweit bist, können wir weiter prüfen.
Michael :-D

P.S: Hast Du das PDF per OCR-Erkennung mit Text angereichert? (»Lastschr« vs. »iastschr«)
 
OP
gm2601

gm2601

Advanced Hacker
Hallo Michael,
harley schrieb:
Das klingt für mich nach einem Bild-PDF mit unsichtbarem Text als Overlay. Der Text scheint dabei nicht mit dem Bild übereinzustimmen – sei es, dass dieser nicht 1:1 übereinander liegt, sei es, dass der Text vollkommen vom Bildinhalt abweicht. Wenn ....
[...]

Wenn Du soweit bist, können wir weiter prüfen.
Michael :-D

P.S: Hast Du das PDF per OCR-Erkennung mit Text angereichert? (»Lastschr« vs. »iastschr«)
Dunkel bleibt mir das meiste, das Du geschrieben hast, denn so tief habe ich mich mit PDF noch nie befasst, OCR habe ich in Wiki nachgelesen, bin nun aber nicht viel schlauer.

Deine Vermutung mit dem Bild scheint zuzutreffen, denn kopiere ich es als Bild in alles was mir bei LibreOffice sinnvoll erscheint, dann kann ich den Kontoauszug zwar lesen, aber nicht darin suchen. Alles was ich als Text kopiere erscheint in LibreOffice als kryptischer Schrott.

Zu Deinem P.S kann ich nur nein vermuten, denn ich wüsste nicht wie ich das mit Okular machen sollte, wüsste auch nicht, wozu das bei einem Kontoauszug gut sein könnte.
 

harley

Hacker
Hallo,

ich muss meine Aussage auch etwas zurücknehmen: Die Option ausgewähltes als Bild zu kopieren bietet Okular auch bei einfachen Text-PDF. Da ich momentan viel mit OCR und PDF-Layern zu tun habe, war ich hier vielleicht etwas vorbelastet.

ich will trotzdem versuchen, Dir meine Worte darzustellen. Ein PDF kann man (wie auch eine HTML-Seit, Zeitungslayout etc.) in Schichten aufbauen, wobei unterschiedliche Schichten sichtbar/unsichtbar übereinander liegen können. Hinzu kommt, daß die Inhalte der Schichten wiederum als Daten an einer anderen Stelle im PDF gespeichert sein können und nur als Verweis auf diese Daten angelegt sind. Schönes Beispiel: Ein PDF wurde mit einem sichtbaren Wasserzeichen versehen in dem z.B. Name und Datum des Benutzers angegeben sind. Wenn man nun nur diese angezeigte Schicht entfernt, sind die Daten trotzdem – wenn nun auch unsichtbar – noch an anderer Stelle gespeichert, da diese innerhalb des PDFs verlinkt waren. Ich hoffe dieser Exkurs war jetzt nicht zu verwirrend oder ablenkend.

Jetzt wieder zu Deinem Problem: Ich habe mit der XEP-Rendering-Engine noch nicht gearbeitet. Kann also nichts zum ausgegebenen Ergebnis sagen. Falls Du dem Geheimnis weiter auf den Grund gehen möchtest, kannst Du Dir aber mal mit inkscape (einem Programm zur Bearbeitung von Vektordaten) die Struktur anschauen. Vielleicht findest Du damit etwas.

Michael :-D
 
OP
gm2601

gm2601

Advanced Hacker
harley schrieb:
[....]
Ein PDF kann man ... in Schichten aufbauen, wobei unterschiedliche Schichten sichtbar/unsichtbar übereinander liegen können. .... Ich hoffe dieser Exkurs war jetzt nicht zu verwirrend oder ablenkend.
Danke für Deine Ausführungen, sie dienen der Veranschaulichung, aber so weit will ich nicht eintauchen, das überlasse ich gerne jüngeren Generationen. Den Begriff "Schichten" habe ich schon bei Gimp mitbekommen, aber nie Honig daraus saugen können.

[...]XEP-Rendering-Engine .... auf den Grund gehen möchtest, kannst Du Dir aber mal mit inkscape (einem Programm zur Bearbeitung von Vektordaten) die Struktur anschauen.
Nein danke, "inkscape" ist sicher mächtig, aber mit meiner nicht vorhandenen Basis zu Vektordaten ist das bestimmt vergebliche Liebesmüh. Ich habe mich damit abgefunden, dass ich in XEP eben nicht suchen kann.

Dennoch danke für den Tipp, vielleicht hilft er anderen Lesern weiter.
 
Oben