Introduction au langage HTML© 2005 Vatteville ingénierie
7. Caractères et entités
&#xxx;
Chaque caractère (il y en a plus de 60 000, pour toutes les langues) est défini par un code numérique. Par exemple 'A', code Ascii 65, peut être représenté par 'A'. Plusieurs conventions de codage coexistent ; les plus universellement employées sont l’Ascii, pour les caractères latins, et l’Unicode, qui englobe le code Ascii.

Les caractères usuels, mais qui ne sont pas toujours disponibles au clavier, peuvent figurer dans un document par leur code numérique, mais on peut aussi utiliser un nom mnémotechnique standardisé, appelé entité, qui débute par un '&' et se termine par un point-virgule. Par exemple le symbole euro '€' peut être représenté par '€', mais il est plus pratique d’utiliser l’entité '€'.

Les caractères usuels de l’informatique (codes ASCII 32 = espace à 126 = ~) s’écrivent tels quels, sauf le '<' et le '&' , qui sont interprétés comme le début d’une balise ou d’une entité. On doit donc les remplacer par l’entité correspondante :
&amp; pour & (comme ampersand)
&lt; pour < (comme less than)

Les caractères spécifiques du français (accents, cédilles…) peuvent presque tous (voir exceptions en annexe A) s’écrire tel quel si on a mis dans l’en-tête la balise :
<META http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

Si on définit un autre charset, notamment UTF-8, les caractères accentués, cédilles ou autres prendront des allures bizarres. Il faut dans ce cas utiliser obligatoirement les entités correspondantes, par exemple, '&eacute;' ou '&#233;' pour 'é'.

L’espace insécable, &#160;, ou &nbsp; (comme non-breaking space) doit être utilisée[1] impérativement avant certains signes de ponctuation, comme le point-virgule.

Codification réglementaire et règles typographiques
Rappelons :
Cas de l’apostrophe
L’apostrophe ' simple quote (&#39;) est disponible au clavier et convient pour un document technique. Pour une présentation plus soignée, il est conseillé d’utiliser (comme le fait MS-Word) l’apostrophe "à la française" right single quotation mark &#8217;. Le code &#146; spécifique à Windows et utilisé par MS-Word n’est pas standard, et doit être évité, en particulier après collage d’un fragment de texte en provenance de MS-Word. L’entité &apos;, utilisé en XML, n'est pas reconnue par les navigateurs usuels.

Voir la liste des entités usuelles en annexe A

Notes
[1] Le mot "espace" est féminin quand il désigne la séparation entre deux mots.

Lexique
ampersand="et" commercial (&), charset=jeu de caractères, less than=plus petit que, non-breaking=insécable, quote=guillemet, space=espace

Introduction au langage HTML© 2005 Vatteville ingénierie