正則表達(dá)式到底是什么東西?
字符是計(jì)算機(jī)軟件處理文字時(shí)最基本的單位,可能是字母,數(shù)字,標(biāo)點(diǎn)符號(hào),空格,換行符,漢字等等。字符串是0個(gè)或更多個(gè)字符的序列。文本也就是文字,字符串。說(shuō)某個(gè)字符串匹配某個(gè)正則表達(dá)式,通常是指這個(gè)字符串里有一部分(或幾部分分別)能滿足表達(dá)式給出的條件。
在編寫(xiě)處理字符串的程序或網(wǎng)頁(yè)時(shí),經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則的工具。換句話說(shuō),正則表達(dá)式就是記錄文本規(guī)則的代碼。
很可能你使用過(guò)Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?。如果你想查找某個(gè)目錄下的所有的Word文檔的話,你會(huì)搜索*.doc。在這里,*會(huì)被解釋成任意的字符串。和通配符類似,正則表達(dá)式也是用來(lái)進(jìn)行文本匹配的工具,只不過(guò)比起通配符,它能更精確地描述你的需求——當(dāng)然,代價(jià)就是更復(fù)雜——比如你可以編寫(xiě)一個(gè)正則表達(dá)式,用來(lái)查找所有以0開(kāi)頭,后面跟著2-3個(gè)數(shù)字,然后是一個(gè)連字號(hào)“-”,最后是7或8位數(shù)字的字符串(像010-12345678或0376-7654321)。
入門(mén)
學(xué)習(xí)正則表達(dá)式的最好方法是從例子開(kāi)始,理解例子之后再自己對(duì)例子進(jìn)行修改,實(shí)驗(yàn)。下面給出了不少簡(jiǎn)單的例子,并對(duì)它們作了詳細(xì)的說(shuō)明。
假設(shè)你在一篇英文小說(shuō)里查找hi,你可以使用正則表達(dá)式hi。
這幾乎是最簡(jiǎn)單的正則表達(dá)式了,它可以精確匹配這樣的字符串:由兩個(gè)字符組成,前一個(gè)字符是h,后一個(gè)是i。通常,處理正則表達(dá)式的工具會(huì)提供一個(gè)忽略大小寫(xiě)的選項(xiàng),如果選中了這個(gè)選項(xiàng),它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。
不幸的是,很多單詞里包含hi這兩個(gè)連續(xù)的字符,比如him,history,high等等。用hi來(lái)查找的話,這里邊的hi也會(huì)被找出來(lái)。如果要精確地查找hi這個(gè)單詞的話,我們應(yīng)該使用bhib。
b是正則表達(dá)式規(guī)定的一個(gè)特殊代碼(好吧,某些人叫它元字符,metacharacter),代表著單詞的開(kāi)頭或結(jié)尾,也就是單詞的分界處。雖然通常英文的單詞是由空格,標(biāo)點(diǎn)符號(hào)或者換行來(lái)分隔的,但是b并不匹配這些單詞分隔字符中的任何一個(gè),它只匹配一個(gè)位置。
如果需要更精確的說(shuō)法,b匹配這樣的位置:它的前一個(gè)字符和后一個(gè)字符不全是(一個(gè)是,一個(gè)不是或不存在)w。
假如你要找的是hi后面不遠(yuǎn)處跟著一個(gè)Lucy,你應(yīng)該用bhib.*bLucyb。
這里,.是另一個(gè)元字符,匹配除了換行符以外的任意字符。*同樣是元字符,不過(guò)它代表的不是字符,也不是位置,而是數(shù)量——它指定*前邊的內(nèi)容可以連續(xù)重復(fù)出現(xiàn)任意次以使整個(gè)表達(dá)式得到匹配。因此,.*連在一起就意味著任意數(shù)量的不包含換行的字符。現(xiàn)在bhib.*bLucyb的意思就很明顯了:先是一個(gè)單詞hi,然后是任意個(gè)任意字符(但不能是換行),最后是Lucy這個(gè)單詞。
換行符就是'n',ASCII編碼為10(十六進(jìn)制0x0A)的字符。
如果同時(shí)使用其它元字符,我們就能構(gòu)造出功能更強(qiáng)大的正則表達(dá)式。比如下面這個(gè)例子:
0dd-dddddddd匹配這樣的字符串:以0開(kāi)頭,然后是兩個(gè)數(shù)字,然后是一個(gè)連字號(hào)“-”,最后是8個(gè)數(shù)字(也就是中國(guó)的電話號(hào)碼。當(dāng)然,這個(gè)例子只能匹配區(qū)號(hào)為3位的情形)。
這里的d是個(gè)新的元字符,匹配一位數(shù)字(0,或1,或2,或……)。-不是元字符,只匹配它本身——連字符或者減號(hào)。
為了避免那么多煩人的重復(fù),我們也可以這樣寫(xiě)這個(gè)表達(dá)式:0d{2}-d{8}。 這里d后面的{2}({8})的意思是前面d必須連續(xù)重復(fù)匹配2次(8次)。
測(cè)試正則表達(dá)式
其它可用的測(cè)試工具:
• RegexBuddy
• Javascript正則表達(dá)式在線測(cè)試工具
如果你不覺(jué)得正則表達(dá)式很難讀寫(xiě)的話,要么你是一個(gè)天才,要么,你不是地球人。正則表達(dá)式的語(yǔ)法很令人頭疼,即使對(duì)經(jīng)常使用它的人來(lái)說(shuō)也是如此。由于難于讀寫(xiě),容易出錯(cuò),所以找一種工具對(duì)正則表達(dá)式進(jìn)行測(cè)試是很有必要的。
由于在不同的環(huán)境下正則表達(dá)式的一些細(xì)節(jié)是不相同的,本教程介紹的是微軟 .Net Framework 2.0下正則表達(dá)式的行為,所以,我向你介紹一個(gè).Net下的工具Regex Tester。首先你確保已經(jīng)安裝了.Net Framework 2.0,然后下載Regex Tester。這是個(gè)綠色軟件,下載完后打開(kāi)壓縮包,直接運(yùn)行RegexTester.exe就可以了。
下面是Regex Tester運(yùn)行時(shí)的截圖:
|
|