7. Caractères et entités
&#xxx;
Chaque caractère (il y en a plus de 60 000, pour toutes les langues) est défini par un code numérique. Par exemple 'A', code Ascii 65, peut être représenté par '
A'. Plusieurs conventions de codage coexistent ; les plus universellement employées sont
l’Ascii, pour les caractères latins, et
l’Unicode, qui englobe le code Ascii.
Les caractères usuels, mais qui ne sont pas toujours disponibles au clavier, peuvent figurer dans un document par leur code numérique, mais on peut aussi utiliser un nom mnémotechnique standardisé, appelé
entité, qui débute par un '&' et se termine par un point-virgule. Par exemple le symbole
euro '€' peut être représenté par '
€', mais il est plus pratique d’utiliser l’entité '
€'.
Les caractères usuels de l’informatique (codes ASCII 32 = espace à 126 = ~) s’écrivent tels quels, sauf le '<' et le '&' , qui sont interprétés comme le début d’une balise ou d’une entité. On doit donc les remplacer par l’entité correspondante :
< pour < (comme less than)
Les caractères spécifiques du français (accents, cédilles…) peuvent presque tous (voir exceptions en
annexe A) s’écrire tel quel si on a mis dans l’en-tête la balise :
Si on définit un autre
charset, notamment
UTF-8, les caractères accentués, cédilles ou autres prendront des allures bizarres. Il faut dans ce cas utiliser obligatoirement les entités correspondantes, par exemple, '
é' ou '
é' pour 'é'.
L’espace insécable,
 , ou
(comme
non-breaking space) doit être
utilisée[1] impérativement avant certains signes de ponctuation, comme le point-virgule.
Codification réglementaire et règles typographiques
Rappelons :
- Que le français fait des majuscules à l’initiale des mots un usage plus parcimonieux que l’anglais, mais que ces majuscules doivent être accentuées s’il y a lieu, y compris la préposition À, au début d’une phrase.
- Que les doubles apostrophes "…" servent à mettre un mot en évidence, mais que les citations sont plutôt entre guillemets « … ».
- Que les citations, les mots ou expressions étrangères (latin, anglais) doivent être en italique.
- Que les signes de ponctuation précédés d’un blanc ( ; : ? et ! mais ni la virgule ni le point) doivent être précédés, en HTML, d’un espace insécable .
L’apostrophe ' simple quote (') est disponible au clavier et convient pour un document technique. Pour une présentation plus soignée, il est conseillé d’utiliser (comme le fait MS-Word) l’apostrophe "à la française" ’ right single quotation mark ’. Le code ’ spécifique à Windows et utilisé par MS-Word n’est pas standard, et doit être évité, en particulier après collage d’un fragment de texte en provenance de MS-Word. L’entité ', utilisé en XML, n'est pas reconnue par les navigateurs usuels.
Notes
[1] Le mot "espace" est féminin quand il désigne la séparation entre deux mots.
Lexique
ampersand="et" commercial (&), charset=jeu de caractères, less than=plus petit que, non-breaking=insécable, quote=guillemet, space=espace