You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: 9-regular-expressions/03-regexp-unicode/article.md
+1-31Lines changed: 1 addition & 31 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -4,7 +4,6 @@ JavaScript utilise [l'encodage Unicode](https://fr.wikipedia.org/wiki/Unicode) p
4
4
5
5
Cette plage n'est pas assez grande pour encoder tous les caractères possibles, c'est pourquoi certains caractères rares sont encodés sur 4 octets, par exemple comme `𝒳` (X mathématique) ou `😄` (un sourire), certains hiéroglyphes et ainsi de suite.
6
6
7
-
<<<<<<< HEAD
8
7
Voici les valeurs unicode de certains caractères :
9
8
10
9
| Caractère | Unicode | Nombre d'octets en unicode |
@@ -14,17 +13,6 @@ Voici les valeurs unicode de certains caractères :
14
13
| 𝒳 |`0x1d4b3`| 4 |
15
14
| 𝒴 |`0x1d4b4`| 4 |
16
15
| 😄 |`0x1f604`| 4 |
17
-
=======
18
-
Here are the Unicode values of some characters:
19
-
20
-
| Character | Unicode | Bytes count in Unicode |
21
-
|------------|---------|--------|
22
-
| a |`0x0061`| 2 |
23
-
| ≈ |`0x2248`| 2 |
24
-
|𝒳|`0x1d4b3`| 4 |
25
-
|𝒴|`0x1d4b4`| 4 |
26
-
|😄|`0x1f604`| 4 |
27
-
>>>>>>> 13da056653754765b50aa5a9f706f84a4a0d6293
28
16
29
17
Ainsi, les caractères comme `a` et `≈` occupent 2 octets, tandis que les codes pour `𝒳`, `𝒴` et `😄` sont plus longs, ils ont 4 octets.
30
18
@@ -51,25 +39,15 @@ Par exemple, si un caractère a la propriété `Letter` (Lettre), cela signifie
51
39
52
40
Nous pouvons rechercher des caractères avec une propriété, écrite sous la forme `pattern:\p{…}`. Pour utiliser `pattern:\p{…}`, une expression régulière doit avoir l'indicateur `pattern:u`.
53
41
54
-
<<<<<<< HEAD
55
42
Par exemple, `\p{Letter}` désigne une lettre dans n'importe quelle langue. Nous pouvons également utiliser `\p{L}`, car `L` est un alias de `Letter` (Lettre). Il existe des alias plus courts pour presque toutes les propriétés.
56
43
57
44
Dans l'exemple ci-dessous, on trouvera trois types de lettres : Anglais, Géorgien et Coréen.
58
-
=======
59
-
For instance, `\p{Letter}` denotes a letter in any language. We can also use `\p{L}`, as `L` is an alias of `Letter`. There are shorter aliases for almost every property.
60
-
61
-
In the example below three kinds of letters will be found: English, Georgian and Korean.
62
-
>>>>>>> 13da056653754765b50aa5a9f706f84a4a0d6293
63
45
64
46
```js run
65
47
let str ="A ბ ㄱ";
66
48
67
49
alert( str.match(/\p{L}/gu) ); // A,ბ,ㄱ
68
-
<<<<<<<HEAD
69
-
alert( str.match(/\p{L}/g) ); // null (aucune correspondance, puisqu'il n'y a pas l'indicateur "u")
70
-
=======
71
-
alert( str.match(/\p{L}/g) ); // null (no matches, \p doesn't work without the flag "u")
72
-
>>>>>>>13da056653754765b50aa5a9f706f84a4a0d6293
50
+
alert( str.match(/\p{L}/g) ); // null (aucune correspondance, \p ne fonctionne pas sans le flag "u")
73
51
```
74
52
75
53
Voici les principales catégories de caractères et leurs sous-catégories :
Il y a une propriété unicode `Script` (un système d'écriture), qui peut avoir une valeur : `Cyrillic` (Cyrillique), `Greek` (Grec),`Arabic` (Arabe), `Han` (Chinois) et ainsi de suite, [voici la liste complète]("https://en.wikipedia.org/wiki/Script_(Unicode)").
148
-
=======
149
-
There's a Unicode property `Script` (a writing system), that may have a value: `Cyrillic`, `Greek`, `Arabic`, `Han` (Chinese) and so on, [here's the full list](https://en.wikipedia.org/wiki/Script_(Unicode)).
150
-
>>>>>>> 13da056653754765b50aa5a9f706f84a4a0d6293
151
125
152
126
Pour rechercher des caractères dans un système d'écriture donné, nous devons utiliser `pattern:Script=<value>`, par exemple pour les lettres cyrilliques : `pattern:\p{sc=Cyrillic}`, pour les hiéroglyphes chinois : `pattern:\p{sc=Han}`, et ainsi de suite :
Les caractères qui désignent une devise, tels que `$`, `€`, `¥`, ont la propriété unicode `pattern:\p{Currency_Symbol}`, l'alias court : `pattern:\p{Sc}`.
166
-
=======
167
-
Characters that denote a currency, such as `$`, `€`, `¥`, have Unicode property `pattern:\p{Currency_Symbol}`, the short alias: `pattern:\p{Sc}`.
168
-
>>>>>>> 13da056653754765b50aa5a9f706f84a4a0d6293
169
139
170
140
Utilisons-le pour rechercher des prix au format "devise, suivi d'un chiffre" :
0 commit comments