导航:起始页 > Dive Into Python > 正则表达式 > 使用 {n,m} 语法 | << >> | ||||
深入 Python :Dive Into Python 中文版Python 从新手到专家 [Dip_5.4b_CPyUG_Release] |
在前面的章节,你处理了相同字符可以重复三次的情况。在正则表达式中,有另外一个方式来表达这种情况,并且能提高代码的可读性。首先看看我们在前面的例子中使用的方法。
>>> import re >>> pattern = '^M?M?M?$' >>> re.search(pattern, 'M') <_sre.SRE_Match object at 0x008EE090> >>> pattern = '^M?M?M?$' >>> re.search(pattern, 'MM') <_sre.SRE_Match object at 0x008EEB48> >>> pattern = '^M?M?M?$' >>> re.search(pattern, 'MMM') <_sre.SRE_Match object at 0x008EE090> >>> re.search(pattern, 'MMMM') >>>
>>> pattern = '^M{0,3}$' >>> re.search(pattern, 'M') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MM') <_sre.SRE_Match object at 0x008EE090> >>> re.search(pattern, 'MMM') <_sre.SRE_Match object at 0x008EEDA8> >>> re.search(pattern, 'MMMM') >>>
没有一个轻松的方法来确定两个正则表达式是否等价。你能采用的最好的办法就是列出很多的测试样例,确定这两个正则表达式对所有的相关输入都有相同的输出。在本书后面的章节,将更多地讨论如何编写测试样例。 |
现在我们来扩展一下关于罗马数字的正则表达式,以匹配十位数和个位数,下面的例子展示十位数的校验方法。
>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)$' >>> re.search(pattern, 'MCMXL') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MCML') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MCMLX') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MCMLXXX') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MCMLXXXX') >>>
对于个位数的正则表达式有类似的表达方式,我将省略细节,直接展示结果。
>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)(IX|IV|V?I?I?I?)$'
用另一种 {n,m} 语法表达这个正则表达式会如何呢?这个例子展示新的语法。
>>> pattern = '^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$' >>> re.search(pattern, 'MDLV') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MMDCLXVI') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'MMMDCCCLXXXVIII') <_sre.SRE_Match object at 0x008EEB48> >>> re.search(pattern, 'I') <_sre.SRE_Match object at 0x008EEB48>
如果你在第一遍就跟上并理解了所讲的这些,那么你做的比我还要好。现在,你可以尝试着理解别人大规模程序里关键函数中的正则表达式了。或者想象着几个月后回头理解你自己的正则表达式。我曾经做过这样的事情,但是它并不是那么有趣。
在下一节里,你将会研究另外一种正则表达式语法,它可以使你的表达式具有更好的可维持性。
<< 个案研究:罗马字母 |
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
松散正则表达式 >> |