Les expressions régulières en JavaScript
Généralités
JavaScript est un langage orienté vers le développement web. Il a été créé par Brendan Eich en 1995, et utilisé pour la première fois dans le navigateur web Netscape Navigator.
Il est fréquemment utilisé en tant que complément à HTML, qui est essentiellement un langage de description de pages web, afin de lui ajouter des fonctionnalités de langage de programmation que HTML ne possède pas.
Bien qu’il puisse être utilisé ailleurs, il est principalement attaché à l’écriture de pages web, et reste majoritairement localisé du côté du client web.
Utilisation des expressions régulières
JavaScript est capable de manipuler des expressions régulières étendues. Deux méthodes permettent de les utiliser, l’une utilisant une syntaxe littérale :
var var_expreg = /expression/modificateurs;
l’autre faisant appel à une méthode de construction de l’expression régulière :
var var_expreg = new RegExp(expression);
Ces deux syntaxes sont fonctionnellement équivalentes du point de vue du résultat, mais diffèrent sur les points suivants :
-
la première utilise une expression constante, qui est compilée au chargement du script,
-
la deuxième fait appel à un constructeur pouvant utiliser une expression variable, et l’expression est compilée lors de l’exécution du script. Cette méthode est moins performante mais présente l’avantage de pouvoir utiliser une expression régulière qui varie en fonction de certaines conditions.
Les méthodes manipulant les expressions régulières sont les suivantes :
-
exec()
-
test()
-
match()
-
search()
-
replace()
Les expressions régulières
1. Utilisation du caractère .
Le caractère . désigne un caractère quelconque, à l’exception du saut de ligne (newline).
2. Utilisation du caractère \
Le caractère antislash sert à supprimer la signification particulière d’un métacaractère, ou à définir un caractère spécial. Les caractères spéciaux définis à l’aide de l’antislash sont les suivants :
\0 |
correspond au caractère ASCII nul. |
\n |
correspond à la n-ième chaîne sélectionnée avec des parenthèses. |
\b |
correspond à la chaîne vide, en début ou fin de mot. |
\B |
correspond à la chaîne vide, uniquement si elle n’est ni en début, ni en fin de mot. |
\d |
correspond à un chiffre décimal, ou, si UNICODE est spécifié, correspond à ce qui est spécifié en tant que chiffre dans la base Unicode. |
\D |
correspond à tout sauf un chiffre décimal, ou, si UNICODE est spécifié, correspond à tout sauf ce qui est spécifié en tant que chiffre dans la base Unicode. |
\f |
correspond au caractère de saut de page (form feed). |
\ooo |
correspond à la valeur octale de ooo. |
\r |
correspond au retour chariot (carriage return). |
\s |
correspond à un caractère espace, \t, \n, \r, \f, \v. |
\S |
correspond à tout sauf les caractères espace, \t, \n, \r, \f, \v. |
\t |
correspond à une tabulation. |
\v |
tabulation verticale. |
\w |
correspond à un caractère alphanumérique et au caractère souligné. |
\W |
ne correspond ni à un caractère alphanumérique, ni au caractère souligné. |
\xxx |
correspond à... |