Loading...
 

Innerhalb von Dateien suchen


Sollen die Inhalte von Dateien aus den Dateiarchiven von der Suchfunktion durchsucht werden können, und hast Du ein Skript, welches den jeweiligen Dateiinhalt in einen Text extrahiert, dann kannst Du dieses Skript mit dem MIME-Typ verknüpfen und die Dateiinhalte werden sodann indexiert.

Sollen Dateien in den Dateiarchiven durchsucht werden, musst Du den Handler zum Extrahieren des Textes aus den Dateien angeben. Die Befehle, wie z.B. strings oder pdftotext müssen dabei auf Deinem Server installiert sein. Der jeweiligen Typ-Befehl muss im Indexierungs-Tab unter Dateiarchive verwalten definiert werden.

MIME Typ Systembefehl Ubuntu/Debian Paket mit Befehl
application/vnd.oasis.opendocument.presentation odt2txt %1 odt2txt
application/vnd.oasis.opendocument.spreadsheet odt2txt %1 odt2txt
application/vnd.oasis.opendocument.text odt2txt %1 odt2txt
application/ms-excel xls2csv %1 catdoc
application/ms-powerpoint catppt %1 catdoc
application/msword catdoc %1
oder
strings %1
catdoc
application/pdf pstotext %1
oder
pdftotext %1 -
pstotext
application/postscript pstotext %1 pstotext
application/ps pstotext %1 pstotext
application/rtf catdoc %1 catdoc
application/sgml col -b %1
oder
strings %1
bsdmainutils
application/vnd.ms-excel xls2csv %1 catdoc
application/vnd.ms-powerpoint catppt %1 catdoc
application/x-msexcel xls2csv %1 catdoc
application/x-pdf pstotext %1 pstotext
application/x-troff-man man -l %1 man-db
text/enriched col -b %1
oder
strings %1
bsdmainutils
text/html elinks -dump -no-home %1 elinks
text/plain col -b %1
oder
strings %1
bsdmainutils
text/richtext col -b %1
oder
strings %1
bsdmainutils
text/sgml col -b %1
oder
strings %1
bsdmainutils
text/tab-separated-values col -b %1
oder
strings %1
bsdmainutils



Zum Extrahieren können verschiedene Werkzeuge genutzt werden. Viele Unix Sites benutzen "strings", welches versucht Text in Dateien zu erkennen - allerdings nicht mit der Genauigkeit eines speziellen Werkzeuges für den MIME-Typ.

Stelle sicher, dass der Systembefehl seine Ausgabe auf dem Bildschirm (Standardausgabe) und nicht in eine Datei vornimmt. Probiere den Befehl vorher in einer Konsole und lies die Anleitung. Z.B. benötigt pdftotext ein nachfolgendes "-".

Ggf. muss der Tiki Cache nach der Installation eines neuen Handlers geleert werden, damit das System den Handler erkennt.

Es ist vorteilhaft, Fileinfo zu installieren, um falsch indentifizierte MIME-Typen zu vermeiden.

Verwandt:

List Slides