Encodages Unicode et UTF-8 et caractères en Rust

1. Quelques définitions

Unicode est un standard logiciel qui permet d’encoder n’importe quel caractère issu de toutes les langues du monde.

UTF-8 (Universal Character Set Transformation Format - 8 bits) est un codage de caractères conçu pour encoder l’ensemble des caractères du répertoire universel. UTF-8 est totalement compatible avec le standard Unicode.

2. Encodage en Rust

a. Le type char et l’Unicode Unicode

Le caractère seul (char) correspond en langage Rust à une valeur numérique Unicode (ce que l’on nomme dans le jargon un « point de code »).

Concrètement, un char en Rust se code sur 32 bits (4 octets).

b. Les types String et str et l’UTF-8 UTF-8

String et str partagent le fait de correspondre à un encodage UTF-8.

Le type str est véritablement le type primitif de chaînes de caractères en Rust. On dit que ce type est toujours valide au sens de UTF-8.

On a déjà rencontré ce type dans ce livre, en particulier sous les deux écritures suivantes correspondant à un emprunt :

&str 
 
&'static str 

Le type String correspond à une chaîne extensible encodée en UTF-8. Pourquoi extensible ? Car elle n’est ni plus ni moins qu’un vecteur de caractères encodés sur un entier non signé sur 8 bits (1 octet), c’est-à-dire le vecteur défini...

Pour consulter la suite, découvrez le livre suivant :
couv_EIRUST.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Introduction
Suivant
À la découverte des caractères (char) en Rust