Accueil Winaide

Lecture et conversion des fichiers PDF

le 24 mai 2000

Rubrique : Utilitaires

1. Qu’est-ce qu’un fichier PDF ?

Le format PDF est à Internet ce que le format PostScript est aux imprimantes ou aux logiciels d’édition : il permet de reproduire des documents contenant des détails très riches sur une grande quantité de plates-formes logicielles et matérielles (imprimantes, photocomposeuses). D’ailleurs, le format PDF est issu des créateurs du format PostScript : [la compagnie Adobe->http://www.adobe.fr/]. Comme le PostScript, PDF est un format de publication, un langage de description de page et n’est pas conçu pour être édité facilement. Par exemple, on ne peut ajouter un long paragraphe dans un fichier PDF et voir notre document se repaginer comme dans un traitement de texte. Tout au plus est-il possible de faire des retouches très mineures en PDF.

PDF est en train de devenir une norme de facto d’échange de document ssur Internet, permettant de combiner texte et images dans le même fichier. Il est adopté par plusieurs entreprises pour produire la documentation de leurs produits.

2. Le logiciel Acrobat Reader.

Le logiciel Acrobat Reader, distribuée gratuitement par la compagnie Adobe, permet l’affichage des fichiers en format PDF sur les principales plates-formes. C’est aussi un plug-in pour les navigateurs Netscape et Internet Explorer. Ce logiciel fournit une interface semblable à la consultation d’un livre papier, on navigue à travers un livre électronique. D’ailleurs, le programme affiche les pages du document à l’écran comme des pages d’un livre, avec leur numéro de page. En outre, on peut avoir une fenêtre présentant une table des matières à gauche, pour consulter directement les sections qui nous intéressent.

Vous pouvez cliquer ici pour [télécharger Acrobat Reader 4.05 version française (5.5 Mb)->ftp://ftp.adobe.com/pub/adobe/acrobatreader/win/4.x/ar405fre.exe].

L’affichage d’un document PDF à l’écran par Acrobat Reader se fait en mode graphique (en particulier, le texte est traduit en pixels), si bien que les aides techniques ne nous permettent pas de lire ces documents directement. La société Adobe a prévu des solutions pour convertir le document PDF en texte ou en HTML (plug-in Access Acrobat, conversion par e-mail ou formulaire)., on retrouve ces solutions (en anglais) sur [le site accessibilité d’Adobe->http://access.adobe.com/].

3. Installation et utilisation du plug-in Access.

1. Installer Adobe Acrobat Reader version 4.05

2. [Téléchargez le plug-in access (1.3 Mb)->ftp://ftp.adobe.com/pub/adobe/acrobatreader/win/4.x/plugins/accs405.exe]

3. exécutez le programme accs405.exe que vous venez de télécharger puis acceptez les différents écrans lors de l’installation.

4. Lancer le programme Acrobat Reader, charger un fichier *.PDF dans menu Fichier Ouvrir puis faire Contrôle+4 pour convertir les pages au format texte ASCII.

5. On peut alors soit lire le texte page à page dans Acrobat, soit l’exporter dans un traitement de texte (option ajoutée au menu Fichier par Acces).

4. Conversion d’un document PDF par Mail ou formulaire

Ces options de conversion consistent à convertir le document PDF sur un serveur distant, et à récupérer le résultat de la conversion. Ceci ne nécessite donc pas d’installer un plug-in, mais cela ralentit l’accès, puisqu’on est obligé de contacter un serveur distant pour cette opération au lieu de la faire en local, donc moins pratique que le plug-in.

Ces deux moyens sont :

Via e-mail : Deux possibilités sont proposées : envoi d’un URL ou d’unfichier attaché. La première option consiste à envoyer l’URL (adresse Web) du documentPDF dans le corps d’un mail, envoyé à l’adresse [pdf2txt@adobe.com->mailto:pdf2txt@adobe.com] pour une conversion en ASCII, et envoyé à [pdf2html@adobe.com->mailto:pdf2html@adobe.com] pour une conversion en HTML. Ces adresses correspondent à celles d’automates (des programmes) chargés de convertir le document PDF en ASCII ou en HTML, selon l’adresse spécifiée. Le convertisseur retournera un mail dont le corps contiendra le document converti. Cette solution impose que le document soit disponible sur le Web.

La seconde option est d’utiliser un service proposé par Trace Research Center. Ce service permet de convertir des documents PDF qui ne sont pas sur le Web. Le document à convertir est envoyé dans un mail en tant que fichier attaché au format MIME. Le mail est envoyé à l’adresse [pdf2txt@sun.trace.wisc.edu->mailto:pdf2txt@sun.trace.wisc.edu] pour une conversion en ASCII, ou à l’adresse [pdf2html@sun.trace.wisc.edu->mailto:pdf2html@sun.trace.wisc.edu] pour une conversion en HTML. Le convertisseur renverra le document converti par E-mail.

Via un formulaire : A partir du site accessibilité de Adobe, on accède à un formulaire de conversion de PDF vers HTML, dans lequel on précise l’URL du document PDF à convertir. La validation de ce formulaire provoquera l’exécution d’un programme sur le serveur Web de Adobe pour effectuer l’opération de conversion et ce programme nous retournera la page HTML que le navigateur Web affichera. Il existe un [formulaire simplifiée->http://access.adobe.com/simple_form.html] qui ne recquièrt que l’URL du document PDF, et un [formulaire avancé->http://access.adobe.com/adv_form.html] proposant des options de conversion (par exemple, le numéro de page de début et de fin pour la conversion) pour formater le document converti en HTML.

5. Le programme de conversion pdf2txt.

Ce programme fonctionne sous MS-DOS ou Windows en ligne de commande. Il est indépendant d’Acrobat Reader et du plug-in Access qui ne sont donc pas nécessaires.

Vous pouvez [Télécharger pdf2txt (3 Mb)->http://www.empowermentzone.com/pdf2...] en cliquant ici.

Quelques petites precisions sur le fonctionnement :

1. mettre le fichier a convertir dans le repertoire courant du programme pdf2txt

2. utiliser le programme en ligne de commande sous window puis se placer dans ce repertoire.

3. lancer pdf2txt avec le nom du fichier .pdf à convertir mais sans l’extension .pdf

4. le fichier qui en resultera aura le meme nom que le fichier source mais avec l’extension .txt.

exemple de la ligne de commande pour un fichier manuel.pdf :

pdf2txt manuel

le fichier resultant sera : manuel.txt Atention a la lenteur de la convertion !!

Ont contribué à la rédaction de cet article : Robert Agro François Condello Aziz Bennani Frédéric Brugnot