Linux正则表达式语法-白红宇

1、什么是正则表达式

简单的说，正则表达式就是为处理大量的字符串而定义的一套规则和方法

例如：

假设“@”代表oldboy，“！”代表oldgirl。echo "@!"==“oldboyoldgirl”

通过定义的这些特殊符号的辅助，系统管理员就可以快速过滤，替换或输出需要的字符串

linux正则表达式一般以行为单位处理的。

正则表达式：

1）linux正则表达式（grep awk sed）

2）PHP、JAVA、PERLPYTHON（Perl兼容正则 PCRE）

2、为什么要学正则表达式？

在企业工作中，我们每天做的linux运维工作中，时刻都会面对大量带有字符串的文本配置、程序、命令输出及日志文件等，而我们经常会有迫切的需要，从大量的字符串内容中查找符合工作需要的特定的字符串。这就要靠正则表达式。因此，可以说正则表达式就是为过滤字符的需求而生的！

例如：ifconfig的输出取IP，例如：cat /var/log/messages输出等

3、容易混淆的两个注意事项：

1）正则表达式应用非常广泛，存在于各种语言中，例如：php、python、java

等。但是我们今天讲的linux系统运维工作中的正则表达式，即linux正则表达式，最常用正则表达式的命令就是grep（egrep）、sed、awk，换句话说linux三剑客要想工作的各高效，那一定离不开正则表达式配合的。

2）正则表达式和我们常用的通配符特殊字符是用本质去别的，这一点要注意

通配符例子：

ls *.log这里的*就是通配符（表示所有），不是正则表达式

基本组成部分：

正则表达式的基本组成部分。

正则表达式	描述	示例
\	转义符，将特殊字符进行转义，忽略其特殊意义	a\.b匹配a.b，但不能匹配ajb，.被转义为特殊意义
^	匹配行首，awk中，^则是匹配字符串的开始	^tux匹配以tux开头的行
$	匹配行尾，awk中，$则是匹配字符串的结尾	tux$匹配以tux结尾的行
.	匹配除换行符\n之外的任意单个字符，awk则中可以	ab.匹配abc或bad，不可匹配abcd或abde，只能匹配单字符
[ ]	匹配包含在[字符]之中的任意一个字符	coo[kl]可以匹配cook或cool
[^ ]	匹配[^字符]之外的任意一个字符	123[^45]不可以匹配1234或1235，1236、1237都可以
[ - ]	匹配[]中指定范围内的任意一个字符，要写成递增	[0-9]可以匹配1、2或3等其中任意一个数字
?	匹配之前的项1次或者0次	colou?r可以匹配color或者colour，不能匹配colouur
+	匹配之前的项1次或者多次	sa-6+匹配sa-6、sa-666，不能匹配sa-
*	匹配之前的项0次或者多次	co*l匹配cl、col、cool、coool等
()	匹配表达式，创建一个用于匹配的子串	ma(tri)?匹配max或maxtrix
{ n }	匹配之前的项n次，n是可以为0的正整数	[0-9]{3}匹配任意一个三位数，可以扩展为[0-9][0-9][0-9]
{n,}	之前的项至少需要匹配n次	[0-9]{2,}匹配任意一个两位数或更多位数
{n,m}	指定之前的项至少匹配n次，最多匹配m次，n<=m	[0-9]{2,5}匹配从两位数到五位数之间的任意一个数字
\|	交替匹配\|两边的任意一项	ab(c\|d)匹配abc或abd

POSIX字符类

POSIX字符类是一个形如[:...:]的特殊元序列（metasequence），他可以用于匹配特定的字符范围。

元字符

元字符（meta character）是一种Perl风格的正则表达式，只有一部分文本处理工具支持它，并不是所有的文本处理工具都支持。

本文转自炫维 51CTO博客，原文链接:http://blog.51cto.com/xuanwei/1844305