PubMed, XML, Perl et techniques bibliographiques artisanales

Objet:
Décrire quelques astuces pour utiliser la technologie XML pour valoriser une petite bibliothèque, spécialement une petite collection de revues de biologie médicale, ou de médecine.

Pourquoi:
Il est difficile pour du personnel nouveau, ou du personnel de passage, d'exploiter au mieux une petite bibliothèque où les articles et documents ne sont pas indexés.
La technique décrite ici permet de constituer une liste informatisée des titres d'articles de revues: exemple

Première remarque:
Le travail de dactylographie qui consiste à indexer tous les titres d'articles d'une revue est un travail considérable.
En théorie, ce travail n'a à être fait qu'une fois, et peut par contre profiter potentiellement à tous les abonnés à la revue.
Première interrogation:
Ce travail d'indexation doit être fait au moins par les bibliothèques universitaires de médecine. Rendent-t'elles leur travail public ?
J'ai été incapable de trouver la réponse à cette question pour la France, par contre les Etats Unis ont mis en ligne un impressionnant outil qui s'appelle PubMed.

Ce que peut faire PubMed pour aider à valoriser une petite collection de revues de Biologie médicale (ou de médecine)

PubMed indexe certaines revues françaises. C'est une indexation orientée pour un public anglo-saxon, néammoins, le libellé en français des titres est indexé.
La seule revue que j'ai retenu est la revue "les annales de biologie clinique".
Travaux pratiques (L'ensemble de la manipulation est fonctionnelle en janvier 2003):

Aller sur le site PubMed
cliquer sur "Limits"
fixer des bornes entre 20010601 et 20020101 (ce sont des travaux pratiques !)
Tapper "annales de biologie clinique" dans le champ de recherche ("Search pubmed for" ...)
cliquer "Go"
choisir XML dans la boite "Display", et cliquer sur "Display"
choisir "File" dans la boite "Send to", et cliquer sur "Send to"
Enregistrer le fichier sur l'ordinateur
le téléchargement commence (il peut être long si on n'a pas fixé de bornes: 12 Méga-octets pour les annales de biologie clinique de 1960 jusqu'à fin 2002).
renommer le fichier obtenu, en, par exemple, abc2001.xml
éventuellement, se déconnecter

Maintenant, double cliquer sur ce fichier abc2001.xml, il devrait s'ouvrir dans votre navigateur.
Examiner la structure. C'est du XML (définition on-line).
On peut appliquer une transformation XSLT (définition on-line) pour modifier l'affichage de ces données.

Pour cela:

Ouvrir le fichier abc2001.xml dans un éditeur de texte (définition on-line).
supprimer les premières lignes, celles qui viennent avant la balise <PubmedArticleSet >
et les remplacer par les lignes suivantes: <?xml version="1.0" standalone="yes"?> <?xml-stylesheet href="pubmed.xsl" type="text/xsl"?>

dans un éditeur de texte (bloc note), créer un nouveau fichier et l'appeler pubmed.xsl
Voici le contenu de ce fichier (il suffit de le copier coller):

<?xml version="1.0" encoding="ISO-8859-1"?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<!-- indexe abc  -->

<xsl:output method="html" doctype-public='-//W3C//DTD HTML 4.01//EN'/>

<xsl:template match="/">

<html>
<head>
<style type="text/css">
.rouge {color :red}
.green {color :green}
.center {text-align: center}
</style>
<title>Index des Annales de biologie clinique</title>
</head>
<body>

<h1 class="center">Index des Annales de biologie clinique</h1>
<p/>
<hr/>


<xsl:for-each select="PubmedArticleSet/PubmedArticle/MedlineCitation">
<div>

<!-- teste si un titre en français - dans ce cas 
affiche le titre et ajoute un saut de ligne  -->

<xsl:if test="(string(Article/VernacularTitle))">
<xsl:value-of select="Article/VernacularTitle"/>
<br/>
</xsl:if>

<!-- teste si pas de titre en français - dans ce cas affiche le titre anglais -->
<xsl:if test="not(string(Article/VernacularTitle))">
- Pas de titre en français dans Pubmed - <br/>
<xsl:value-of select="Article/ArticleTitle"/>
<br/>
</xsl:if>

<small class="green">
<xsl:value-of select="MedlineJournalInfo/MedlineTA"/>
,
<xsl:value-of select="Article/Journal/JournalIssue/PubDate/MedlineDate"/>
Vol.
<xsl:value-of select="Article/Journal/JournalIssue/Volume"/>
N°
<xsl:value-of select="Article/Journal/JournalIssue/Issue"/>
pages:
<xsl:value-of select="Article/Pagination/MedlinePgn"/>
</small>

</div>
<hr/>


</xsl:for-each>


</body>
</html>
</xsl:template>

</xsl:stylesheet>

sauver ce fichier dans LE MEME REPERTOIRE que abc2001.xml
ouvrir abc2001.xml avec un navigateur internet
examiner le résultat.
Recommencer le même exercice, en choisissant une autre revue quelconque (par exemple "la Revue du Praticien") et en essayant (à la condition de disposer d' une connexion internet rapide), de boucler l'ensemble des opérations en moins de cinq minutes.

Il est évidemment possible de faire ces opérations pour n'importe quelle revue française indexée dans Pubmed.
Il est possible de modifier le format de sortie en modifiant le fichier pubmed.xsl
Pour obtenir un fichier html plus compact, on peut traiter le fichier par un processeur xslt séparé, plutôt qu'à la volée par le processeur xslt intégré aux versions récentes des navigateurs.
Par exemple avec xsltproc sous linux:
la commande
yves:~$ xsltproc -o abc2001.htm pubmed.xsl abc2001.xml
produit un fichier html (abc2001.htm) beaucoup plus compact que le fichier xml initial

De la même façon sous windows (95, 98, NT, ou 2000)), on peut utiliser saxon en ligne de commande dos
C:\> saxon -o abc2001.htm abc2001.xml pubmed.xsl
(le programme saxon, les fichiers abc2001.xml et pubmed.xsl doivent tous être dans le même répertoire (pour simplifier))
(testé avec instant-saxon 6.5.2 sous windows 98)

Pour en savoir plus sur XML et XSLT, une excellente introduction est le premier chapitre du livre "Comprendre XSLT". Ce chapitre, "L'introduction à XML/XSLT", proposé en téléchargement sur le site de l'auteur, donne aussi une vue d'ensemble sur ces techniques.

Et pour les revues qui ne sont pas référencées dans PubMed ?

Malheureusement, comme déjà signalé en introduction, je n'ai pas connaissance d'un travail coordonné, ou plus ou moins coordonné, au niveau national ou international en dehors de PubMed aux Etats-Unis (n'hésitez pas à m'écrire si je suis dans l'erreur).

La revue "Les Feuillets de Biologie" est une revue médicale en Français qui n'est pas référencée dans PubMed (en réalité, UN article de 1984 y est référencé).
Heureusement, les collègues du laboratoire du Centre hospitalier du Carbet à la Martinique ont pris l'initiative d'indexer tous les articles de cette revue depuis 1990 dans un tableau Excel ©.

Excel© est un choix pratique pour effectuer un tel travail, toutefois dans certains cas ce format ne convient pas. En effet:

Tout le monde ne possède pas Excel©
Tout le monde ne possède pas la bonne version d'Excel©
Ceux qui possèdent Excel© ne l'ont pas forcément installé sur tous leurs PCs (problème des "licenses" propriétaires)
Le logiciel peut être un peu long à charger pour une simple consultation
Toujours pour les simples consultations, il y a des risques de modification ou d'altération involontaire du fichier.

Voici donc quelques transformations possibles pour obternir une autre présentation de ce travail.

La première chose à demander est une version CSV (définition on-line) du fichier Excel©.
Le format CSV est un format qui présente les données séparées par des virgules.
Il suffit de faire "Enregistrer sous" et de sélectionner le format "csv" dans Excel©.

Ensuite, il faut faire subir quelques traitements à ce fichier, grâce à des scripts Perl (définition on-line).

Perl est un langage de programmation interprété optimisé pour le traitement de textes. C'est un logiciel libre.
Au moins une version de Perl existe pour Windows http://aspn.activestate.com/ASPN/Downloads
Perl est installé en standard sur toutes les distributions Linux.

Travaux pratiques:

On travaille sur le fichier Excel transformé qu'on aura nommé fb.csv
Voici ce fichier zippé

Le premier script Perl à faire agir sur ce fichier est le suivant, nommé, par exemple, "transforme.pl":

#!/usr/bin/perl -w -i.bak

use strict;

while (<>){
# remplace les séquences espace-espace...point-virgules par des points virgules
    s/\s*;/;/;
# supprime les espaces en début de ligne
    s/^\s*//;
# arrange de nombreuses apostrophes
    s/\x92/\047/g ;
# arrange certains "foetale" 
   s/\x9C/oe/g ;
    print;
# cette syntaxe ésotérique peut s'apprendre! Elle est décrite dans 
# les ouvrages sur Perl
}

Les scripts Perl s'utilisent en ligne de commande, par exemple, au prompt DOS, il faut tapper:
c:\dossierexperiences\> perl transforme.pl fb.csv
On peut utiliser des shells plus sophistiqués que le prompt DOS, comme par exemple les modes shell, ou eshell, d'emacs.

Suite à l'action de ce script le fichier original est renommé en fb.csv.bak, tandis que le fichier fb.csv se trouve "nettoyé".

On fait ensuite agir le script suivant, nommé creexml.pl.

c:\dossierexperiences\> perl creexml.pl fb.csv

Le script creexml.pl utilise deux "modules" de Perl, non installés en standard. Pour les installer sous ActivePerl sous Windows, les commandes sont, en étant connecté à Internet:
c:\dossierexperiences\> perl ppm install Text::CSV_XS
c:\dossierexperiences\> perl ppm install XML::CSV

#!/usr/bin/perl -w

use strict;
use XML::CSV;

my $file = 'fb.csv';
my @columns = qw (Discipline Année Mois Vol Numéro TitreArticle NomAuteurs Mots-clésPrincipaux Mots-clésSecondaires);

# binary indispensable pour pouvoir traiter des fichiers avec accents
my $default_obj_xs = Text::CSV_XS->new({sep_char => ';',
					binary => 1 });
my $csv = XML::CSV->new({csv_xs => $default_obj_xs});

$csv->{column_headings} = \@columns;

$csv->parse_doc($file);
$csv->declare_xml({version => '1.0',
                   standalone => 'yes',
		   encoding =>'iso-8859-1'});

$csv->print_xml('fb.xml', 
                {file_tag    => 'indexFeuillBiol',
                 parent_tag  => 'entrée'}         
               );

Il est créé automatiquement un fichier nommé fb.xml.
Voici à quoi ressemble le début de ce fichier, à titre d'exemple:

<?xml version="1.0" encoding="iso-8859-1" standalone="yes"?>
<indexFeuillBiol>
	<entrée>
		<Discipline>Biochimie</Discipline>
		<Année>2002</Année>
		<Mois>Septembre</Mois>
		<Vol>XXXXIII</Vol>
		<Numéro>248</Numéro>
		<TitreArticle>Conduite à tenir devant une hypoHDLémie</TitreArticle>
		<NomAuteurs>E. Bruckert, C. Stévenin, P. Giral</NomAuteurs>
		<Mots-clésPrincipaux>HLD-Cholestérol, risque cardiovasculairer, hypo-alphalipoprotéinémie</Mots-clésPrincipaux>
		<Mots-clésSecondaires></Mots-clésSecondaires>
	</entrée>
	<entrée>
		<Discipline>Biochimie</Discipline>
		<Année>2002</Année>
		<Mois>Septembre</Mois>
		<Vol>XXXXIII</Vol>
		<Numéro>248</Numéro>
		<TitreArticle>Etude de la cristallurie : réalisation pratique et signification clinique</TitreArticle>
		<NomAuteurs>M. Daudon, E. Cohen-Solal, B. Lacour</NomAuteurs>
		<Mots-clésPrincipaux></Mots-clésPrincipaux>
		<Mots-clésSecondaires></Mots-clésSecondaires>
	</entrée>
....

Suivant le même principe qu'au paragraphe précédent, on peut créer une feuille de transformation xslt, ici nommée bib.xsl:

<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

<xsl:output method="html" doctype-public='-//W3C//DTD HTML 4.01//EN'/>

<xsl:template match="indexFeuillBiol">
<html>
<head>

<style type="text/css">
.rouge {color :red}
.green {color :green}
.blue {color :blue}
.center {text-align: center}
</style>
<title>Index des Feuillets de biologie</title>
</head>
<body>

<h1 class="center">Index des Feuillets de biologie 1990 - 2002</h1>
<p/>
<hr/>

<xsl:apply-templates select="entrée"/>

</body>
</html>
</xsl:template>

<xsl:template match="entrée">
<div>
<xsl:value-of select="TitreArticle"/>
<br/>
<!--
<small class="blue">
<xsl:value-of select="NomAuteurs"/> 
<br/>
</small>
-->
<small class="green">
Numéro: <xsl:value-of select="Numéro"/> - <xsl:value-of select="Mois"/> <xsl:text> </xsl:text> <xsl:value-of select="Année"/>
</small>
<br/>
<small>
<xsl:if test="string(Mots-clésPrincipaux)">
Mots-clés:
</xsl:if>
<span class="rouge">
<xsl:value-of select="Mots-clésPrincipaux"/>

<xsl:if test="string(Mots-clésSecondaires)">
,
<xsl:value-of select="Mots-clésSecondaires"/>
</xsl:if>
</span>
</small>
<hr/>
</div>

</xsl:template>

</xsl:stylesheet>

on tranforme les premières lignes du fichier fb.xml:

<?xml version="1.0" encoding="iso-8859-1" standalone="yes"?>
<?xml-stylesheet href="bib.xsl" type="text/xsl"?>
<indexFeuillBiol>
	<entrée>
		<Discipline>Biochimie</Discipline>
		<Année>2002</Année>
		<Mois>Septembre</Mois>

en double-cliquant sur le fichier fb.xml, avec le fichier bib.xsl dans le même répertoire, voici la présentation qu'on obtient:

Index des Feuillets de biologie 1990 - 2002

Conduite à tenir devant une hypoHDLémie
Numéro: 248 - Septembre 2002
Mots-clés: HLD-Cholestérol, risque cardiovasculairer, hypo-alphalipoprotéinémie
Etude de la cristallurie : réalisation pratique et signification clinique
Numéro: 248 - Septembre 2002
etc ...
retour haut de page
Voici l'index complet des Feuillets de biologie, en html zippé, produit par cette technique de transformation.

Une technique intéressante est de modifier la feuille de style xsl pour obtenir une liste qui décrit précisément le contenu de sa propre bibliothèque:
par exemple, si on dispose d'une collection des "Feuillets de biologie" qui comprend:

tous les numéros des années 2002,2001,2000,1999,1998
les numéros 219, 218, 217 et 216 de 1997
le numéro 190 (de janvier 1993)

Voici la feuille de style mabib.xsl:

<?xml version="1.0" encoding="ISO-8859-1"?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">


<xsl:output method="html" doctype-public='-//W3C//DTD HTML 4.01//EN'/>

<xsl:template match="indexFeuillBiol">
<html>
<head>
<style type="text/css">
.rouge {color :red}
.green {color :green}
.blue {color :blue}
.center {text-align: center}
</style>
<title>Index des Feuillets de biologie</title>
</head>
<body>

<h1 class="center">Index des Feuillets de biologie 
<br/>
Laboratoire
<br/>
Hôpital F. Dunan
</h1>
<p/>
<hr/>



<xsl:apply-templates select="entrée"/>



</body>
</html>
</xsl:template>



<xsl:template match="entrée">


<xsl:if test="(Année &gt; 1997
or Numéro = 190
or Numéro = 216
or Numéro = 217
or Numéro = 218
or Numéro = 219
)">

<div>

<xsl:value-of select="TitreArticle"/>

<br/>
<small class="green">
Feuill Biol, Numéro: <xsl:value-of select="Numéro"/> - <xsl:value-of select="Mois"/> <xsl:text> </xsl:text> <xsl:value-of select="Année"/>
</small>
<br/>
<small>
<xsl:if test="string(Mots-clésPrincipaux)">
Mots-clés:
</xsl:if>
<span class="rouge">
<xsl:value-of select="Mots-clésPrincipaux"/>

<xsl:if test="string(Mots-clésSecondaires)">
,
<xsl:value-of select="Mots-clésSecondaires"/>
</xsl:if>

</span>
</small>
<hr/>
</div>

</xsl:if>

</xsl:template>

</xsl:stylesheet>

Les modifications significatives sont en rouge.

L'expression ">" est équivalente au symbole ">".
Ce symbole doit être écrit de cette façon pour ne pas être interprété comme une partie de balise par le navigateur ou le programme qui va analyser le texte.

En double-cliquant sur le fichier fb.xml, avec le fichier mabib.xsl dans le même répertoire, on obtiendra la même présentation que précédemment, mais le contenu du fichier affiché dans le navigateur correspondra EXACTEMENT au contenu de la bibliothèque.

Il reste à faire

Décrire une technique permettant de fusionner relativement automatiquement les fichiers indexant différentes revues en un seul gros fichier récapitulatif.

Retour à la table des matières

12/09/2003
rev 1.1
adresse mail