Un documento XML puó contenere potenzialmente qualsiasi carattere dell’alfabeto latino, cifre e punteggiatura. Normalmente vengono accettati come caratteri validi in un documento XML i primi 128 caratteri della codifica ASCII (lettere dell’alfabeto latino minuscole e maiuscole, cifre, segni di punteggiatura, ecc.). Se un documento contiene caratteri che non rientrano tra questi (es.: lettere accentate, simboli di valuta, ecc.) è necessario specificare lo schema di codifica utilizzato.
Ad esempio, la seguente direttiva di elaborazione:
<?xml version=”1.0″? encoding=”iso-8859-1″?>
abilita l’uso del set di caratteri noto come Latin 1 contenente le lettere accentate ed altri simboli. Inoltre, le specifiche prevedono esplicitamente la possibilità di utilizzare la codifica Unicode per rappresentare anche caratteri non latini, come ad esempio i caratteri greci, cirillici, gli ideogrammi cinesi e giapponesi.