正则表达式 - 元字符

正则表达式中的元字符是具有特殊含义的字符，它们不表示字面意义，而是用于控制匹配模式。

基本元字符

. (点号)

匹配除换行符(\n)外的任意单个字符

示例：a.b 匹配 "aab", "a1b", "a b" 等

^ (脱字符)

匹配字符串的开始位置
示例：^abc 匹配以 "abc" 开头的字符串

$ (美元符)

匹配字符串的结束位置
示例：xyz$ 匹配以 "xyz" 结尾的字符串

\ (反斜杠)

转义字符，使后面的字符失去特殊含义
示例：\. 匹配实际的点号而不是任意字符

字符类元字符

[] (方括号)

定义字符集合，匹配其中任意一个字符
示例：[aeiou] 匹配任意一个元音字母

[^] (否定字符类)

匹配不在方括号中的任意字符
示例：[^0-9] 匹配任意非数字字符

- (连字符)

在字符类中表示范围
示例：[a-z] 匹配任意小写字母

量词元字符

* (星号)

匹配前面的子表达式零次或多次
示例：ab*c 匹配 "ac", "abc", "abbc" 等

+ (加号)

匹配前面的子表达式一次或多次
示例：ab+c 匹配 "abc", "abbc" 但不匹配 "ac"

? (问号)

匹配前面的子表达式零次或一次
示例：colou?r 匹配 "color" 和 "colour"

{n} (花括号)

精确匹配n次
示例：a{3} 匹配 "aaa"

{n,}

至少匹配n次
示例：a{2,} 匹配 "aa", "aaa" 等

{n,m}

匹配n到m次
示例：a{2,4} 匹配 "aa", "aaa", "aaaa"

分组和选择元字符

() (圆括号)

定义子表达式或捕获组
示例：(ab)+ 匹配 "ab", "abab" 等

| (竖线)

表示"或"关系
示例：cat|dog 匹配 "cat" 或 "dog"

特殊字符类元字符

\d

匹配任意数字，等价于 [0-9]

\D

匹配任意非数字，等价于 [^0-9]

\w

匹配任意单词字符(字母、数字、下划线)，等价于 [a-zA-Z0-9_]

\W

匹配任意非单词字符，等价于 [^a-zA-Z0-9_]

\s

匹配任意空白字符(空格、制表符、换行符等)

\S

匹配任意非空白字符

边界匹配元字符

\b

匹配单词边界
示例：\bcat\b 匹配 "cat" 但不匹配 "category"

\B

匹配非单词边界
示例：\Bcat\B 匹配 "scattered" 中的 "cat" 但不匹配单独的 "cat"

其他元字符

\n

匹配换行符

\t

匹配制表符

\r

匹配回车符

\f

匹配换页符

\v

匹配垂直制表符

贪婪与非贪婪量词

默认情况下，量词(*, +, ?, {})是贪婪的，会尽可能多地匹配字符。在量词后加?可使其变为非贪婪(懒惰)模式：

*?：零次或多次，但尽可能少
+?：一次或多次，但尽可能少
??：零次或一次，但尽可能少
{n,m}?：n到m次，但尽可能少

示例：<.*?> 匹配HTML标签时不会跨标签匹配

正向和负向预查

(?=...) (正向肯定预查)

匹配后面跟着特定模式的位置
示例：Windows(?=95|98) 匹配后面跟着95或98的"Windows"

(?!...) (正向否定预查)

匹配后面不跟着特定模式的位置
示例：Windows(?!95|98) 匹配后面不跟着95或98的"Windows"

(?<=...) (反向肯定预查)

匹配前面是特定模式的位置
示例：(?<=95|98)Windows 匹配前面是95或98的"Windows"

(?<!...) (反向否定预查)

匹配前面不是特定模式的位置
示例：(?<!95|98)Windows 匹配前面不是95或98的"Windows"

实例

接下来我们分析一个匹配邮箱的正则表达式，如下图：

实例

var str = "abcd [email protected] 1234"; var patt1 = /\b[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,6}\b/g; document.write(str.match(patt1));

以下标记的文本是获得的匹配的表达式：

[email protected]

尝试一下 »

下表包含了元字符的完整列表以及它们在正则表达式上下文中的行为：

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
.	匹配除换行符（\n、\r）之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用像"(.\|\n)"的模式。
(pattern)	匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 '$' 或 '$'。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y\|ies) 就是一个比 'industry\|industries' 更简略的表达式。
(?=pattern)	正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，"Windows(?=95\|98\|NT\|2000)"能匹配"Windows2000"中的"Windows"，但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如"Windows(?!95\|98\|NT\|2000)"能匹配"Windows3.1"中的"Windows"，但不能匹配"Windows2000"中的"Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查类似，只是方向相反。例如，"`(?<=95\|98\|NT\|2000)Windows`"能匹配"`2000Windows`"中的"`Windows`"，但不能匹配"`3.1Windows`"中的"`Windows`"。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如"`(?<!95\|98\|NT\|2000)Windows`"能匹配"`3.1Windows`"中的"`Windows`"，但不能匹配"`2000Windows`"中的"`Windows`"。
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'、'l'、'i'、'n'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx	匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'。
\W	匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

120

(?=xox) 和 (?<=xox) 的区别：

可以看作此两者是匹配字符之间的一个虚无的 “空位”。

(?=xox) 匹配 xox 之前的空位，而 (?<=xox) 匹配 xox 之后的空位。

所以对于 abxoxcd：

(?=xox)..    匹配 xo

..(?=xox)    匹配 ab

(?<=xox)..    匹配 cd

..(?<=xox)    匹配 ox

沧海一个6年前 (2019-05-12)

265

?=、?!、?<= ?<! 用于限定它前后的表达式，不能单独使用，本身没有作用。

a(?=b) 匹配后面有 b 的 a。
a(?!b) 匹配后面没有 b 的 a。
(?<=a) b 匹配前面有 a 的 b。
(?<!a) b 匹配前面没有 a 的 b。

描述 ?=、?!、?<= ?<! 的 “Positive/Negative lookahead/lookbehind assest” 的现行翻译“正先行断言”“正向肯定预查”之类，都不易理解或者说不准确甚至错误。lookaround 指前后看而不是“预查”，意为作用于前后表达式，即 lookahead(指向前看而不是“先行”)和 lookbehind(指向后看而不是“后发”)的合称；assert 指判断而不是“断言”；Positive 和 Negative 指肯否定而不是正负。

anonym6年前 (2019-08-27)

结合上面两位加上我自己实验总结一下，下面用的每个结果我都是有在这个网站的API上跑过的，我可以对以下结论的正确性负责。

前面介绍语法那里有说到这么一句话可以使用非捕获元字符 ?:、?= 或 ?! 来重写捕获，忽略对相关匹配的保存

这个的重写捕获是关键词

所以这类正则式分两步

1. 第一步：匹配

首先别管什么正向反向肯定否定，正则式能匹配上才有第二步，假设原字符串是“abcdefgh"

/.(?=cde)../

在原字符串里面能不能包含cde，且cde前面有一个点（除换行符等的任何单个字符），然后，而且从c开始后面有两个字符的字符串？

根据上式，"abcdefgh"中能够匹配到bcde

2. 第二步：重写捕获

再根据正向反向，肯定否定来重写，这里只讨论肯定的两种情况

首先你要记住你匹配到了bcde

- 这种叫正向，所以表达式cde前面所匹配到的字符b不变，只需要看表达式的后面决定重写的是什么，是两个点，所以从c开始由前往后读两个字符，即cd，将其重写进中间括号匹配的结果（原本是cde），所以最终结果是bcd。这里用/.(?=cde)cd/得到的结果是一样的。

- 如果后面是四个点，则从c开始由前往后读四个，即cdef，所以最终结果是bcdef。这里用/.(?=cde)cdef/得到的结果是一样的。

但是记住，后面也是要从c开始匹配，如果匹配不上，这里就会返回null，比如/.(?=cde)f/或者/.(?=cde)d/都是会返回null的。

对于(?<=)

1. 同样分两步，第一步同上。

/....(?<=cde)../

这个是反向查找，所以找到包含cde，且cde后面有两个字符，从e开始往前找有四个字符的字符串

"abcdefgh"中匹配到了bcdefg

2. 第二步

cde后面的两个点对应的两个字符不变，即fg不变。前面有一个点，加上是反向，所以从cde的后面往前面读四个字符，即bcde，将其重写进中间括号匹配的结果（原来是cde），所以最终结果是bcdefg。

同样的如果前面是两个个点/..(?<=cde)../就从e开始往前读两个字符，结果是defg。

举二反四，我相信这个语法就没什么难度了。

久狼君5年前 (2020-03-05)

正则表达式 - 元字符

基本元字符

字符类元字符

量词元字符

分组和选择元字符

特殊字符类元字符

边界匹配元字符

其他元字符

贪婪与非贪婪量词

正向和负向预查

实例

实例

3 篇笔记写笔记

点我分享笔记

分享笔记前必须登录！

正则表达式 - 元字符

基本元字符

字符类元字符

量词元字符

分组和选择元字符

特殊字符类元字符

边界匹配元字符

其他元字符

贪婪与非贪婪量词

正向和负向预查

实例

实例

3 篇笔记 写笔记

点我分享笔记

分享笔记前必须登录！

3 篇笔记写笔记