Infos

Extensible Markup Language


Pourquoi utiliser le format XML ?

Parce que les entreprises d’aujourd’hui utilisent des volumes importants de données pouvant provenir de sources très différentes et dans des formats les plus divers : bases de données, pages Web, fichiers de tableur, courrier électronique etc. Le format XML vous permet de travailler avec des données provenant de sources diverses, et d’exploiter ces données.

Qu’est-ce que le langage XML ?

Le langage XML est un langage informatique de balisage générique qui dérive du SGML. Cette syntaxe est dite « extensible » car elle permet de définir différents espaces de noms, c’est-à-dire des langages avec chacun leur vocabulaire et leur grammaire, comme XHTML, XSLT, RSS, SVG… Elle est reconnaissable par son usage des chevrons (< >) encadrant les balises. Le XML est un langage informatique codant la structure et l’organisation de l’information d’un document. Ce langage ouvert permet notamment l’échange des données et de leurs structures.
Le XML permet d’échanger automatiquement du contenu  complexe  (arbres, texte riche…) entre plusieurs systèmes d’informations hétérogènes (interopérabilité).

À quoi ça ressemble ?

Voici un exemple de fichier XML.

Dans le détail…

Le prologue

La première ligne d’un XML, nous renseigne sur la version du XML (1.0) et sur l’encodage des caractères du XML (utf-8). L’encodage permet aux navigateurs web d’afficher les bons caractères à l’écran, et de pouvoir conserver le bon codage lorsqu’on modifie le fichier.

 

Instruction de traitement

La seconde ligne est une déclaration qui va mettre en relation votre XML avec  un fichier annexe appelé DTD (Document Type Definition). Ce fichier définit un modèle de données, qui structure un document XML selon des règles bien définies, dans le but de définir une structure commune à un ensemble d’utilisateurs et de programmateurs de documents XML. Grâce à cette structure les utilisateurs peuvent s’échanger leurs documents XML puisque ceux-ci ont une structure de base qui est commune.
Voici un exemple de DTD :

Pour définir un élément, il suffit d’utiliser la balise ‘ELEMENT’.
Cette DTD indique que dans l’élément ‘annuaire’, il y a l’ élément ‘personne’ (le plus signifie que l’élément <personne> doit être présent au minimum une fois).
Elle indique également que dans l’élément ‘personne’, il y a les éléments ‘prenom’, ‘nom’, ‘Tel*’ (l’étoile signifie que L’élément peut être présent plusieurs fois ou aucune) et ‘adresse’.

#PCDATA représente le type d’information que l’on peut saisir dans l’élément (l’ élément doit contenir une chaîne de caractères).

 

Les commentaires

Les chaînes de caractères se trouvant entre <!– et –>, ne sont pas des données du document. Ce sont des commentaires laissés par le développeur pour faciliter la compréhension de son code. Et comme en HTML, si vous ouvrez votre document dans une page web, les commentaires ne s’afficheront pas.

 

Les balises

Supposons que vous voulez créer un annuaire et que vous souhaitiez utiliser le format XML pour stocker des données relatives aux personnes recensées, vos fichiers de données XML contiendront les données correspondant à chaque personne. Chaque information est accompagnée d’une balise décrivant ce que signifient ces données. Cette combinaison de balises et de données est appelée un nœud.

L’illustration montre un exemple de fichier de données XML pour M. Terieur. Les balises sont constituées d’une combinaison de crochets en chevrons et de texte :

Les balises sont constituées de deux parties, une balise d’ouverture (<prenom>) et une balise de fermeture (</prenom>), elles entourent les données qu’elles décrivent.

 

Normes d’écriture

Un document XML doit répondre à un certain nombre de règles… Ces règles sont les suivantes :

  • Les majuscules et les minuscules sont différenciées et <prenom> désigne une autre balise que <Prenom> ;
  • Un nom d’élément ne peut pas commencer par un chiffre ;
  • Si un nom d’élément n’est constitué que d’un seul caractère, alors ce caractère doit être une lettre ;
  • Si le nom contient au moins deux caractères, le premier peut être un tiret « – » ou un tiret bas « _ ». Le nom peut ensuite être composé de lettres, chiffres, tirets  « – » , tirets bas « _ » ou deux-points « : ».
  • Tous les éléments doivent être fermés, et ce, dans l’ordre de leur ouverture : <prenom><nom> blabla </nom></prenom> est correct, mais <prenom><nom> blabla </prenom></nom> ne l’est pas.
  • L’élément racine doit être unique (dans notre exemple l’élément racine est la balise annuaire).

Un document XML qui respecte ces quelques règles est dit « bien formé ».

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

5 + 20 =