(转载)正则表达式快速入门。

10 心灵亮光 3年前 1641次点击

正则表达式本身就是一种编程语言，用于操作文本并针对文本操作进行了优化，这是使用字面字符和元字符（metacharacter）实现的。字面字符指的是目标字符串必须与之匹配的字符，而元字符正则表达式分析器如何行动。表达式分析器负责解释正则表达式并将其应用于目标字符串。这些元字符赋予了正则表达式灵活性和强大的处理功能。

1 C#中的正则表达式类

在.NET Framework中，正则表达式是通过命名空间 System.Text.RegularExpression中的几个类实现的，这些类让您能够分析和应用正则表达式以及使用捕获组。

Regex类

Regex类提供了正则表达式分析器和引擎的实现，它将正则表达式应用于输入字符串。通过使用这个类，可以快速分析大量文本，看其是否符合特定模式，还可轻松地提取和编辑子串。

Regex 类提供了实例成员和静态成员，让您能够以两种不同的方式使用它。当您创建Regex 类的实例时，不会编译和缓存表达式模式；但是当您使用静态方法时，将编译和缓存表达式模式。默认情况下，正则表达式引擎将缓存最近使用的15个静态正则表达式。如果需要大量使用一组固定的正则表达式，就应使用静态方法，而不是相应的实例方法。

Match和MatchCollection类

使用Regex类的Match方法将正则表达式应用于字符串时，将用Match类的实例表示第一个匹配项。MatchCollection包含一组Match实例，这些Match是通过重复应用正则表达式找到的匹配项。

Group和Capture类

Match.Groups属性表示单个匹配项中所有的捕获组。每个捕获组都是一个Group实例，而Group实例包含一组Capture对象，这些对象可通过Captures属性获取。Capture表示单个子表达式匹配返回的结果。

2 使用正则表达式验证字符串

正则表达式的一种常见用途是验证字符串：检查它是否符合特定模式。为此，可使用方法IsMatch的重载版本之一。

3 使用正则表达式搜索子串

正则表达式还可用于搜索与特定正则表达式模式匹配的子串。这种搜索可执行一次，也可重复执行。在前一种情况下，将返回第一个匹配项；在后一种情况下，将返回一系列匹配项。

要以这种方式搜索子串，可使用方法Match或Matches。其中，前者返回第一个匹配项，而后者返回一系列不重叠的匹配项。

正则表达式快速入门

正则表达式是对字串操作的一种逻辑公式，就是用事先定义好的一些特定字元、及这些特定字元的组合，组成一个“规则字串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

表达式由一些普通字元和一些元字元（metacharacters）组成。普通字元包括大小写的字母和数字，而元字元则具有特殊的含义，我们下面会给予解释。

在最简单的情况下，一个正则表达式看上去就是一个普通的查找串。例如，正则表达式"testing"中没有包含任何元字元，它可以匹配"testing"和"testing123"等字串，但是不能匹配"Testing"。

要想真正的用好正则表达式，正确的理解元字元是最重要的事情。下表列出了所有的元字元和对它们的一个简短的描述。

元字描述

\ 将下一个字元标记符、或一个向後引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配分行符号。序列“\\”匹配“\”而“\(”则匹配“(”。即相当於多种程式设计语言中都有的“转义字元”的概念。

^ 匹配输入字行首。如果设置了RegExp物件的Multiline属性，^也匹配“\n”或“\r”之後的位置。

$ 匹配输入行尾。如果设置了RegExp物件的Multiline属性，$也匹配“\n”或“\r”之前的位置。

* 匹配前面的子运算式任意次。例如，zo*能匹配“z”，也能匹配“zo”以及“zoo”。*等价於{0,}。

+ 匹配前面的子运算式一次或多次(大於等於1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价於{1,}。

? 匹配前面的子运算式零次或一次。例如，“do(es)?”可以匹配“do”或“does”。?等价於{0,1}。

{n} n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。

{n,}

n是一个非负整数。至少匹配n 次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价於“o+”。“o{0,}”则等价於“o*”。

{n,m}

m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m 次。例如，“o{1,3}”将匹配“fooooood”中的前三个o为一组，後三个o为一组。“o{0,1}”等价於“o?”。请注意在逗号和两个数之间不能有空格。

? 当该字元紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m }）後面时，匹配模式是非贪婪的。非贪婪模式尽可能少地匹配所搜索的字串，而预设的贪婪模式则尽可能多地匹配所搜索的字串。例如，对於字串“oooo”，“o+”将尽可能多地匹配“o”，得到结果[“oooo”]，而“o+?”将尽可能少地匹配“o”，得到结果 ['o', 'o', 'o', 'o']

.点匹配除“\n”和"\r"之外的任何单个字元。要匹配包括“\n”和"\r"在内的任何字元，请使用像“[\s\S]”的模式。

(pattern)

匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字元，请使用“$”或“$”。

(?:pattern)

非获取匹配，匹配pattern但不获取匹配结果，不进行存储供以後使用。这在使用或字元“(|)”来组合一个模式的各个部分时很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的运算式。

(?=pattern)

非获取匹配，正向肯定预查，在任何匹配pattern的字串开始处匹配查找字串，该匹配不需要获取供以後使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字元，也就是说，在一个匹配发生後，在最後一次匹配之後立即开始下一次匹配的搜索，而不是从包含预查的字元之後开始。

(?!pattern)

非获取匹配，正向否定预查，在任何不匹配pattern的字串开始处匹配查找字串，该匹配不需要获取供以後使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。

(?<=pattern)

非获取匹配，反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。

*python的正则表达式没有完全按照正则表达式规范实现，所以一些高级特性建议使用其他语言如java、scala等

(?

非获取匹配，反向否定预查，与正向否定预查类似，只是方向相反。例如“(?

*python的正则表达式没有完全按照正则表达式规范实现，所以一些高级特性建议使用其他语言如java、scala等

x|y 匹配x或y。例如，“z|food”能匹配“z”或“food”(此处请谨慎)。“[z|f]ood”则匹配“zood”或“food”。

[xyz] 字元集合。匹配所包含的任意一个字元。例如，“[abc]”可以匹配“plain”中的“a”。

[^xyz] 负值字元集合。匹配未包含的任意字元。例如，“[^abc]”可以匹配“plain”中的“plin”任一字元。

[a-z]

字元范围。匹配指定范围内的任意字元。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字元。

注意:只有连字号在字元组内部时,并且出现在两个字元之间时,才能表示字元的范围; 如果出字元组的开头,则只能表示连字号本身.

[^a-z] 负值字元范围。匹配任何不在指定范围内的任意字元。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字元。

\b

匹配一个单词的边界，也就是指单词和空格间的位置（即正则表达式的“匹配”有两种概念，一种是匹配字元，一种是匹配位置，这里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”；“\b1_”可以匹配“1_23”中的“1_”，但不能匹配“21_3”中的“1_”。

\B 匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。

\cx 匹配由x指明的控制字元。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字元。

\d 匹配一个数字字元。等价於[0-9]。grep 要加上-P，perl正则支持

\D 匹配一个非数字字元。等价於[^0-9]。grep要加上-P，perl正则支持

\f 匹配一个换页符。等价於\x0c和\cL。

\n 匹配一个分行符号。等价於\x0a和\cJ。

\r 匹配一个回车符。等价於\x0d和\cM。

\s 匹配任何不可见字元，包括空格、定位字元、换页符等等。等价於[ \f\n\r\t\v]。

\S 匹配任何可见字元。等价於[^ \f\n\r\t\v]。

\t 匹配一个定位字元。等价於\x09和\cI。

\v 匹配一个垂直定位字元。等价於\x0b和\cK。

\w 匹配包括底线的任何单词字元。类似但不等价於“[A-Za-z0-9_]”，这里的"单词"字元使用Unicode字元集。

\W 匹配任何非单词字元。等价於“[^A-Za-z0-9_]”。

\xn 匹配n，其中n 为十六进位转义值。十六进位转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价於“\x04&1”。正则表达式中可以使用ASCII编码。

\num 匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字元。

\n 标识一个八进制转义值或一个向後引用。如果\n之前至少n个获取的子运算式，则n为向後引用。否则，如果n 为八进位数字（0-7），则n为一个八进制转义值。

\nm 标识一个八进制转义值或一个向後引用。如果\nm之前至少有nm个获得子运算式，则nm为向後引用。如果\nm之前至少有n个获取，则n为一个後跟文字m的向後引用。如果前面的条件都不满足，若n和m均为八进位数字（0-7），则\nm 将匹配八进制转义值

nm。

\nml 如果n为八进位数字（0-7），且m和l均为八进位数字（0-7），则匹配八进制转义值nml。

\un 匹配n，其中n是一个用四个十六进位数字表示的Unicode字元。例如，\u00A9匹配版权符号（©）。

\p{P}

小写 p 是 property 的意思，表示 Unicode 属性，用於 Unicode 正运算式的首码。中括弧内的“P”表示Unicode 字元集七个字元属性之一：标点字元。

其他六个属性：

L：字母；

M：标记符号（一般不会单独出现）；

Z：分隔符号（比如空格、换行等）；

S：符号（比如数学符号、货币符号等）；

N：数字（比如阿拉伯数字、罗马数字等）；

玩机互助

共 2 条评论

心灵亮光 [楼主] 3年前

0

C：其他字元。

*注：此语法部分语言不支援，例：javascript。

\<

\>

匹配词（word）的开始（\<）和结束（\>）。例如正则表达式\能够匹配字串"for the wise"中的"the"，但是不能匹配字串"otherwise"中的"the"。注意：这个元字元不是所有的软体都支援的。

( )

将( 和 ) 之间的运算式定义为“组”（group），并且将匹配这个运算式的字元保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 \1 到\9 的符号来引用。

| 将两个匹配条件进行逻辑“或”（or）运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字元不是所有的软体都支援的。

最简单的元字元是点，它能够匹配任何单个字元（注意不包括分行符号）。假定有个文件test.txt包含以下几行内容：

he is arat

he is in a rut

the food is Rotten

I like root beer

我们可以使用grep命令来测试我们的正则表达式，grep命令使用正则表达式去尝试匹配指定档的每一行，并将至少有一处匹配运算式的所有行显示出来。命令

grep r.t test.txt

在test.txt文件中的每一行中搜索正则表达式r.t，并列印输出匹配的行。正则表达式r.t匹配一个r接着任何一个字元再接着一个t。所以它将匹配档中的rat和rut，而不能匹配Rotten中的Rot，因为正则表达式是大小写敏感的。要想同时匹配大写和小写字母，应该使用

字元区间元字元（方括号）。正则表达式[Rr]能够同时匹配R和r。所以，要想匹配一个大写或者小写的r接着任何一个字元再接着一个t就要使用这个运算式：[Rr].t。

要想匹配行首的字元要使用抑扬字元（^）——有时也被叫做插入符。例如，想找到text.txt中行首"he"打头的行，您可能会先用简单运算式he，但是这会匹配第三行的the，所以要

使用正则表达式^he，它只匹配在行首出现的he。

有时候指定“除了×××都匹配”会比较容易达到目的，当抑扬字元（^）出方括号中时，它表示“排除”，例如要匹配he ，但是排除前面是t or s的情形（也就是the和she），可以使用：[^st]he。

可以使用方括号来指定多个字元区间。例如正则表达式[A-Za-z]匹配任何字母，包括大写和小写的；正则表达式[A-Za-z][A-Za-z]* 匹配一个字母後面接着0或者多个字母（大写或者小写）。当然我们也可以用

元字元 +做到同样的事情，也就是：[A-Za-z]+ ，和[A-Za-z][A-Za-z]*完全等价。但是要注意元字元+ 并不是所有支援正则表达式的程式都支援的。关於这一点可以参考後面的正则表达式语法支援情况。

要指定特定数量的匹配，要使用大括弧（注意并不是所有扩展正则表达式的实现都支持大括弧。此外，根据具体的实现，您可能需要先使用反斜线对其进行转义。）。想匹配所有10和100的实例而排除1和 1000，可以使用：10\{1,2\} 或 10{1, 2}，这个正则表达式匹配数字1後面跟着1或者2个0的模式。在这个元字元的使用中一个有用的变化是忽略第二个数字，例如正则表达式0\{3,\} 或 0{3,} 将匹配至少3个连续的0。

例1

将所有方法foo(a,b,c)的实例改为foo(b,a,c)。这里a、b和c可以是任何提供给方法foo()的参数。也就是说我们要实现这样的转换：

之前之後

foo(10,7,2) foo(7,10,2)

foo(x+13,y-2,10) foo(y-2,x+13,10)

foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面这条替换命令能够实现这一方法：

:%s/foo$([^,]*),([^,]*),([^,]*)$/foo$\2,\1,\3$/g

让我们把它打散来加以分析。写出这个运算式的基本思路是找出foo()和它的括弧中的三个参数的位置。第一个参数是用这个运算式来识别的：：([^,]*)，我们可以从里向外来分析它：

[^,] 除了逗号之外的任何字元

[^,]* 0或者多个非逗号字元

([^,]*) 将这些非逗号字元标记为\1，这样可以在之後的替换模式运算式中引用它

([^,]*), 我们必须找到0或者多个非逗号字元後面跟着一个逗号，并且非逗号字元那部分要标记出来以备後用。

正是指出一个使用正则表达式常见错误的最佳时机。为什麽我们要使用[^,]*这样的一个运算式，而不是更加简单直接的写法，例如：.*，来匹配第一个参数呢？设想我们使用模式.*来匹配字串"10,7,2"，它应该匹配"10,"还是"10,7,"？为了解决这个两义性（ambiguity），正则表达式规定一律按照最长的串来，在上面的例子中就是"10,7,"，显然这样就找出了两个参数而不是我们期望的一个。所以，我们要使用[^,]*来强制取出第一个逗号之前的部分。

这个运算式我们已经分析到了：foo\(([^,]*)，这一段可以简单的翻译为“当您找到foo(就把其後直到第一个逗号之前的部分标记为\1”。然後我们使用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样，只是我们要搜索所有的字元直到右括弧。我们并没有必要去搜索第三个参数，因为我们不需要调整它的位置，但是这样的模式能够保证我们只去替换那些有三个参数的foo()方法调用，在foo()是一个

重载（overloading）方法时这种明确的模式往往是比较保险的。然後，在替换部分，我们找到foo()的对应实例，然後利用标记好的部分进行替换，是把第一和第二个参数交换位置。

我的世界肝帝玩家 1年前

0

看不懂一点啊

添加一条新评论

登录后可以发表评论去登录