Linux et le référencement de PDF

Pour bien référencer votre PDF dans les moteurs de recherche, la compression et les métadonnées sont importantes. Sur Windows, il suffit de faire un clic droit sur le fichier puis « Propriétés » pour vérifier si les métadonnées sont bien enregistrées. Sur Linux, ces informations sont moins facilement accessibles. Dans les deux cas, il vous faudra un logiciel pour pouvoir les modifier.

Vérifier et modifier les métadonnées avec une interface graphique

Sur Manjaro, une recherche avec pacman -Ss pdf metadata ne retourne aucun résultat. J’ai donc tenté une recherche en utilisant yay qui permet d’accéder au dépôt AUR. J’ai trouvé deux logiciels qui semblent efficaces : PDFMtEd et Pdftag.

PDFMtEd

Il s’agit en fait d’une interface graphique pour l’outil ExifTool.

// Pour l’installer :
yay pdfmted

Lors de l’installation, nous pouvons voir que PDFMtEd nécessite quelques dépendances. L’espace nécessaire est de 15,47 MiB.

Une dépendance optionnelle est listée : « java-sejda ». La page Github du projet recommande son installation.

// Pour l'installer :
yay java-sejda

De nombreuses dépendances seront également installées, notamment Java. L’installation nécessite 275,66 MiB d’espace libre. Pour installer complètement PDFMtEd, il nous faut donc 291,13 MiB. L’installation est volumineuse et un peu longue.

Pour l’utiliser, deux programmes sont possibles :

  • « PDFMtEd – Inspector » : pour vérifier si des métadonnées sont déjà présentes
  • « PDFMtEd – Editor » : pour enregistrer de nouvelles métadonnées

Il vous suffit de faire un clic droit sur le fichier PDF, de faire « Ouvrir avec » et choisir le programme souhaité.

Problème : « PDFMtEd – Editor » ne permet pas de voir les métadonnées déjà présentes (à moins d’un bug, chez moi…) ce qui est plutôt gênant.

Vous obtiendrez une interface similaire à ça :

PDFMtEd Editor sur Manjaro Linux
PDFMtEd Editor sur Manjaro Linux

Pdftag

Pdftag ne nécessite pas Java, il est écrit en Vala et GTK+.

// Pour l’installer :
yay pdftag

Lors de l’installation, nous pouvons voir que Pdftag nécessite également des dépendances. L’espace nécessaire est de 108,60 MiB.

Pour l’utiliser, il vous suffit de faire un clic droit sur le fichier PDF, de faire « Ouvrir avec » et de sélectionner « pdftag ». Vous obtiendrez une interface similaire à ça :

Pdftag Manjaro Linux

Il suffit de modifier les champs et d’enregistrer.

Problème : l’interface n’est pas très claire. « Open with pdftag » ouvre exactement la même fenêtre ; je ne comprends pas l’utilité. « Tag » permet d’enregistrer vos modifications, mais rien ne l’indique. Quand vous cliquez dessus, vous avez l’impression que rien n’a changé. Vous pouvez fermer la fenêtre de Pdftag et rouvrir votre fichier avec ; vous verrez que les métadonnées sont bien sauvegardées.

Vérifier et modifier les métadonnées en ligne de commande

PDFtk permet d’extraire ou d’importer des métadonnées en ligne de commande.

// Pour l’installer :
sudo pacman -S pdftk

Lors de l’installation, nous pouvons voir que PDFtk nécessite des dépendances, notamment Java. L’espace nécessaire pour tout installer est de 172,66 MiB.

Lors de l’installation, plusieurs dépendances optionnelles sont listées. Nous aurons besoin de « java-commons-lang ». Sa taille est de 0,49 MiB ; au final, l’installation totale demande 173,15 MiB.

Son utilisation est simple :

// Extraire les métadonnées dans un fichier .txt :
pdftk votrefichier.pdf dump_data_utf8 output metadata.txt

En ouvrant le fichier « metadata.txt », vous pouvez voir plusieurs valeurs avec « InfoKey » suivi de « InfoValue ». Pour modifier les métadonnées, il faudra uniquement changer ce qui suit « InfoValue :  ».

Si vous utilisez « dump_data » plutôt que « dump_data_utf8 », vos caractères spéciaux (comme les accents) seront sans doute encodés.

// Mettre à jour les métadonnées dans le fichier PDF :
pdftk votrefichier.pdf update_info_utf8 metadata.txt output example_updated.pdf

Si vous avez utilisé « dump_data », vous pouvez utiliser « update_info ». Ici, je choisis d’encoder en UTF-8.

Compresser un fichier PDF sur Linux

Je n’ai pas cherché si une interface graphique permettait de le faire ; le plus simple me semble être le terminal. Nous allons utiliser la librairie Ghostscript pour compresser le PDF. L’espace nécessaire pour l’installer est de 43,69 MiB.

// Installer Ghostscript :
pacman -S ghostscript

// Petite subtilité, il ne faut pas utiliser « ghostscript » mais « gs » pour l’utiliser.
// Compresser un fichier PDF :
gs -q -dSAFER -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dPDFSETTINGS=/printer -sOUTPUTFILE=PDFdeSortie.pdf -f PDFaAlleger.pdf

Si vous souhaitez en savoir plus sur les options utilisées :

- q : quiet
// Peu de messages.

-dSAFER
// Mode de sécurité SAFER.

-dNOPAUSE -dBATCH
// Pas de confirmation entre les pages, se termine après la dernière page.

-sDEVICE
// Sélectionne le périphérique de sortie à utiliser, ici pdfwrite permet de créer un PDF

-dPDFSETTINGS
// Sélectionne un réglage prédéfini : screen, ebook, printer, prepress, default.

-sOUTPUTFILE
// Le nom du fichier de sortie.

-f
// Exécute le fichier, ici PDFaAlleger.pdf

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.