python正则表达式处理教学(使用Python正则表达式操作文本数据的方法)
python正则表达式处理教学
使用Python正则表达式操作文本数据的方法什么是正则表达式
正则表达式,是简单地字符的序列,可指定特定的搜索模式。正则表达式已存在很长一段时间,并且它本身就是计算机科学的一个领域。
在 python中,使用python的内置re模块处理正则表达式操作 。在本节中,我将介绍创建正则表达式并使用它们的基础知识。您可以使用以下步骤实现正则表达式:
- 指定模式字符串。
- 将模式字符串编译为正则表达式对象。
- 使用正则表达式对象在字符串中搜索模式。
- 可选:从字符串中提取匹配的模式。
编写和使用正则表达式
在python中创建正则表达式的第一步是导入re 模块:
|
import re |
python正则表达式使用模式字符串表示,模式字符串是指定所需搜索模式的字符串。在最简单的形式中,模式字符串只能由字母,数字和空格组成。以下模式字符串表示精确字符序列的搜索查询。您可以将每个角色视为一个单独的模式。在后面的例子中,我将讨论更复杂的模式:
|
import re pattern_string = "this is the pattern" |
下一步是将模式字符串处理为python可以使用的对象,以便搜索模式。这是使用re模块的compile()方法完成的。的编译()方法将图案字符串作为参数并返回一个正则表达式对象:
|
import re pattern_string = "this is the pattern" regex = re. compile (pattern_string) |
获得正则表达式对象后,可以使用它在搜索字符串中搜索模式字符串中指定的模式。搜索字符串只是您要在其中查找模式的字符串的名称。要搜索模式,可以使用regex对象的search()方法,如下所示:
|
import re pattern_string = "this is the pattern" regex = re. compile (pattern_string) match = regex.search( "this is the pattern" ) |
如果模式字符串中指定的模式位于搜索字符串中,则search()方法将返回匹配对象。否则,它返回none数据类型,这是一个空值。
由于python相当松散地解释了true和false值,因此搜索函数的结果可以像if语句中的布尔值一样使用,这可能相当方便:
|
.... match = regex.search( "this is the pattern" ) if match: print ( "this was a match!" ) |
这个模式应该产生一个匹配,因为它与模式字符串中指定的模式完全匹配。如果在搜索字符串的任意位置找到模式,搜索函数将生成匹配,如下所示:
|
.... match = regex.search( "this is the pattern" ) if match: print ( "this was a match!" ) if regex.search( "*** this is the pattern ***" ): print ( "this was not a match!" ) if not regex.search( "this is not the pattern" ): print ( "this was not a match!" ) |
特殊字符
正则表达式取决于使用某些特殊字符来表达模式。因此,除非用于预期目的,否则不应直接使用以下字符:
|
. ^ $ * + ? {} () [] | |
如果确实需要使用模式字符串中的任何前面提到的字符来搜索该字符,则可以编写以反斜杠字符开头的字符。这称为转义字符。这是一个例子:
|
pattern string = "c*b" ## matches "c*b" |
如果需要搜索反斜杠字符本身,则使用两个反斜杠字符,如下所示:
|
pattern string = "cb" ## matches "cb" |
匹配空格
在模式字符串中的任何位置使用s都匹配空白字符。这比空格字符更通用,因为它适用于制表符和换行符:
|
.... a_space_b = re. compile ( "asb" ) if a_space_b.search( "a b" ): print ( "'a b' is a match!" ) if a_space_b.search( "1234 a b 1234" ): print ( "'1234 a b 1234' is a match" ) if a_space_b.search( "ab" ): print ( "'1234 a b 1234' is a match" ) |
匹配字符串的开头
如果在模式字符串的开头使用^字符,则只有在搜索字符串的开头找到模式时,正则表达式才会产生匹配:
|
.... a_at_start = re. compile ( "^a" ) if a_at_start.search( "a" ): print ( "'a' is a match" ) if a_at_start.search( "a 1234" ): print ( "'a 1234' is a match" ) if a_at_start.search( "1234 a" ): print ( "'1234 a' is a match" ) |
匹配字符串的结尾
类似地,如果在模式字符串的末尾使用$符号,则正则表达式将仅在模式出现在搜索字符串的末尾时生成匹配:
|
.... a_at_end = re. compile ( "a$" ) if a_at_end.search( "a" ): print ( "'a' is a match" ) if a_at_end.search( "a 1234" ): print ( "'a 1234' is a match" ) if a_at_end.search( "1234 a" ): print ( "'1234 a' is a match" ) |
匹配一系列字符
可以匹配一系列字符而不是一个字符。这可以为模式增加一些灵活性:
|
[a - z] matches all capital letters [a - z] matches all lowercase letters [ 0 - 9 ] matches all digits .... lower_case_letter = re. compile ( "[a-z]" ) if lower_case_letter.search( "a" ): print ( "'a' is a match" ) if lower_case_letter.search( "b" ): print ( "'b' is a match" ) if lower_case_letter.search( "123 a b 2" ): print ( "'123 a b 2' is a match" ) digit = re. compile ( "[0-9]" ) if digit.search( "1" ): print ( "'a' is a match" ) if digit.search( "342" ): print ( "'a' is a match" ) if digit.search( "asdf abcd" ): print ( "'a' is a match" ) |
匹配几种模式中的任何一种
如果存在构成匹配的固定数量的模式,则可以使用以下语法组合它们:
|
(||) |
以下a_or_b正则表达式将匹配任何字符或ab字符的字符串:
|
.... a_or_b = re. compile ( "(a|b)" ) if a_or_b.search( "a" ): print ( "'a' is a match" ) if a_or_b.search( "b" ): print ( "'b' is a match" ) if a_or_b.search( "c" ): print ( "'c' is a match" ) |
匹配序列而不是仅匹配一个字符
如果+字符位于另一个字符或模式之后,则正则表达式将匹配该模式的任意长序列。这非常有用,因为它可以很容易地表达可以是任意长度的单词或数字。
将模式放在一起
通过一个接一个地组合图案串可以产生更复杂的图案。在下面的示例中,我创建了一个正则表达式,用于搜索严格后跟单词的数字。生成正则表达式的模式字符串由以下内容组成:
与数字序列匹配的模式字符串:[0-9]+与空白字符匹配的模式字符串:s与字母序列匹配的模式字符串:[az] +
与字符串结尾或空格字符匹配的模式字符串:(s | $)
|
.... number_then_word = re. compile ( "[0-9]+s[a-z]+(s|$)" ) |
正则表达式split()函数
python中的regex 对象也有一个split()方法。split方法将搜索字符串拆分为子字符串数组。所述分裂发生在沿着其中该图案被识别的字符串中的每个位置。结果是在模式的实例之间出现的字符串数组。如果模式出现在搜索字符串的开头或结尾,则分别在结果数组的开头或结尾包含一个空字符串:
|
.... print (a_or_b.split( "123a456b789" )) print (a_or_b.split( "a1b" )) |
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持开心学习网。
原文链接:https://segmentfault.com/a/1190000019166942
- python本地ocr库(详解Python安装tesserocr遇到的各种问题及解决办法)
- 利用python合并pdf(Python合并同一个文件夹下所有PDF文件的方法)
- python函数使用方法高级用法(Python函数的参数常见分类与用法实例详解)
- python sql注入怎么避免(Python实现SQL注入检测插件实例代码)
- 笨办法学python3目录(如何愉快地迁移到 Python 3)
- python socket 设置通信协议(详解python中TCP协议中的粘包问题)
- 用python简单实现登录功能(使用python的pexpect模块,实现远程免密登录的示例)
- python图片aes加密(python实现AES加密和解密)
- python爬虫开源代码(Python实现的文轩网爬虫完整示例)
- centos8配置python开发环境(CentOS6.9 Python环境配置python2.7、pip、virtualenv)
- python企业微信录信息(python获取微信企业号打卡数据并生成windows计划任务)
- pythonlambda详解(Python的条件表达式和lambda表达式实例)
- python线程池的实现原理(详解python中的线程与线程池)
- python2.7中logging的使用方式(Python中使用logging和traceback模块记录日志和跟踪异常)
- python时间序列模式识别(Python时间序列处理之ARIMA模型的使用讲解)
- python用pyqt5制作登录界面(python3+pyqt5+itchat微信定时发送消息的方法)
- 今天会下雨吗(今天会下雨吗小说)
- 追连续剧,品古今联4 明代三杨,联妙诗佳(追连续剧品古今联4)
- 三杨 共辅四朝帝王,构建明帝国内阁行政圈(三杨共辅四朝帝王)
- 红色文化进国企(红色文化进国企)
- 车友的选择| 轮毂该如何选(车友的选择轮毂该如何选)
- 秦海璐炫耀和王新军热恋蜜事,不料对方吐槽她吃饱后肚子撅老高(秦海璐炫耀和王新军热恋蜜事)
热门推荐
- laravel框架怎么定时任务(laravel Model 执行事务的实现)
- SQL Server 2008中的时间数据类型
- sql如何查询进阶(Superset实现动态SQL查询功能)
- secure file(解决出现secure_file_priv null的问题)
- win10上装ubuntu系统(Windows 10 太难用如何定制你的 Ubuntu方法详解)
- sw2018安装图解教程(WHMCS V7.4.2 图文安装教程)
- docker 退出容器详解(Docker 使用nsenter工具进入容器的操作)
- udp 常用端口(UDP DUP超时UPD端口状态检测代码示例)
- python学生管理系统与数据库(python学生管理系统学习笔记)
- linux安装php目录路径修改(ubuntu环境下的php相关路径与修改方法)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9