Zum Durchsuchen von PDF’s auf der Linux-Konsole gibt es den Befehl pdfgrep.
Mit diesem Befehl kann man nicht nur ein PDF durchsuchen, sonder auch mehrere gleichzeitig.
Die Installation des Befehls unter Debian erfolgt mit
1 |
#>aptitude install pdfgrep |
Der Aufbau des Befehls:
pdfgrep [-OPTIONEN] SUCHBEGRIFF File(Files)
Beispiele:
Durchsuchen der Datei test.pdf nach der Zeichenfolge „Fahr“.
Es wird alles gefunden, in dem die Zeichen „Fahr“ (mit großen F beginnend) vorkommen.
1 |
#>pdfgrep Fahr test.pdf |
Durchsuchen von zwei Dateien (test.pdf und anders.pdf) nach der Buchstabenreihe Fahr.
Durch verwenden der Option -i wird die Groß-/Kleinschreibung ingoriert. So werden alle Wörter, in denen die Zeichenfolge „Fahr“ vorkommt gefunden, auch wenn diese klein geschrieben sind (z.B.: fahren, fahrbar usw.)
1 |
#>pdfgrep -i Fahr test.pdf anders.pdf |
Damit man weiß in welcher Datei der Suchbegriff vorgekommen ist, kann man mit der Option -H die Dateinamen vorangestellt ausgeben.
1 |
#>pdfgrep -iH Fahr test.pdf anders.pdf |
Möchte man zusätzlich noch die Seitennummer ausgeben, auf denen der Suchbegriff gefunden wurde, kann man die Option -n verwenden.
1 |
#>pdfgrep -iHn Fahr test.pdf anders.pdf |
Durchsucht man viele PDF’s, so kann man erstmal die Ausgabe auf die Anzahl der Suchtreffer pro Datei mit der Option -c begrenzen.
In diesem Beispiel wird der Suchbegriff „Router“ in allen PDF’s, welche „Doku“ im Namen enthalten, durchsucht.
1 |
#>pdfgrep -Hc Fahr *Doku*.pdf |
Eine Auflistung aller Optionen erhält man mit
1 |
#>pdfgrep --help |