awk正则提取匹配上的字符串?

正则表达式(或称Regular Expression,简称RE)就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。简单的说,正则表示式就是处理字符串的方法,它是以行为单位来进行字符串的处理行为,正则表示式通过一些特殊符号的辅助,可以让使用者轻易的达到搜寻/删除/取代某特定字符串的处理程序。vim、grep、find、awk、sed等命令都支持正则表达式。

1、.代表任意单个字符, 如:/l..e/与包含一个l,后跟两个字符,然后跟一个e的行相匹配

2、^代表行的开始。 ^love 如:与所有love开头的行匹配

3、$代表行的结束。love$ 如:与所有love结尾的行匹配

那么‘^$’ 就表示空行

4、[…]匹配括号中的字符之一

[0-9a-zA-Z]匹配任意英文字母或数字之一

注意:上面标红色的单个和之一,不管[]里面多复杂,它的结果都是一个字符!

可以用^标记做[]内的前缀,表示[]内的字符之外的其他字符(即匹配不在此括号中的任何字符)。比如 搜索oo前没有g的字符串的行. 应用 '[^g]oo' 作搜索字符串,^符号如果出现[]的起始位置表示否定,但是[]的其他位置是普通字符。[^ab^c] 除了a或b或^或c的其他任意单个字符

5、* 用于修饰前导字符,表示前导字符出现0或任意多

如:'a*grep'匹配所有0个或多个a后紧跟grep的行。.*”表示任意字符串

6、\? 用于修饰前导字符,表示前导字符出现0或1

7、\+ 用于修饰前导字符,表示前导字符出现1或多

8、\{n,m\}  用于修饰前导字符,表示前导字符出现n至m次 (n和m都是整数,且n<m)

\{n,m\}还有其他几种形式:

9、\  用于转义紧跟其后的单个特殊字符,使该特殊字符成为普通字符

如:^\.[0-9][0-9]以一个句点和两个数字开始

a* 匹配连续的任意(也包括0)个a

\.* 匹配0或多个连续的.  \.表示普通字符句点

搜索行以A至Z的一个字母开头,然后跟两个任意字母,然后跟一个换行符的行。将找到第5行。

搜索以一个大写字母开头,后跟0个或多个小写字母,再跟数字3,再跟05之间的一个数字。无法找到匹配行

搜索以0个或多个空格开头,跟一个大写字母,两个小写字母和一个换车符。将找到第4行的TOM(整行匹配)和第5行。注意,*前面有一个空格

将查找以0个或多个大写或小写字母开头,不跟逗号,然后跟0个或多个大写或小写字母,然后跟一个换车符。将找到第4和5行。

上面的命令是用来查找suid文件的;

上面的命令是用来查找suidguid的。


二、grep命令的用法

(file中搜寻有panda样式的行,并显示该行的后1)

例如在抽取字符串“ 48”,返回结果包含诸如484和483等包含“48”的其他字符串,实际上应精确抽取只包含48的各行。

使用grep抽取精确匹配的一种有效方式是在抽取字符串后加\>。假定现在精确抽取48,


9、-s 不显示不存在或无匹配文本的错误信息

如:执行命令grep "root" /etc/password,因为password文件不存在,所以在屏幕上输出错误信息,若使用grep命令-s开关,可屏蔽错误信息

要用好grep这个工具,其实就是要写好正则表达式,所以这里不对grep的所有功能进行实例讲解,只列几个例子,讲解一个正则表达式的写法。

显示所有以d开头的文件中包含test的行。

显示在aa,bb,cc文件中匹配test的行。

显示所有包含每个字符串至少有5个连续小写字符的字符串的行。

显示包含test或tast的所有行。

显示以.为结尾的所有行。

sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。


1.2 用 & 表示匹配的字符串

 下面是更复杂的例子 :

sed 默认只替换搜索字符串的第一次出现 , 利用 /g 可以替换搜索字符串所有

在整行范围内把panda替换为mytest。如果没有g标记,则只有每行第一个匹配的test被替换成mytest。

$ sed 's#10#100#g' a.txt-----不论什么字符,紧跟着s命令的都被认为是新的分隔符,所以,“#”在这里是分隔符,代替了默认的“/”分隔符。表示把所有10替换成100。


如果需要对同一文件或行作多次修改,可以使用 "-e" 选项

取得eth0网卡IP地址:

从某文件中删除包含"Nicky" 的所有行

将/etc/passwd的内容显示并打印行号,同时将2~5删除

附:nl命令在系统中用来计算文件中行号。nl可以将输出的文件内容自动的加上行号

3.增加行:a命令(在指定的行后新增)或i命令(在指定的行前新增)

a的后面可以接字符串,而这些字符串会在新的一行出现

如果要同时新增多行,则每行之间要用反斜杠\来进行新行的添加

c的后面可以接字符串,这些字符串可以取代n1,n2之间的行

注:sed-i选项可以直接修改文件中的内容

调用sed有三种方式:

sed命令插入脚本文件,并使sed脚本可执行。

A、 使用sed命令行格式为:

记住在命令行使用sed命令时,实际命令要加单引号。sed也允许加双引号。

B、使用sed脚本文件,格式为:

C、要使用第一行具有sed命令解释器的sed脚本文件,其格式为:

不管是使用shell命令行方式或脚本文件方式,如果没有指定输入文件,sed从标准输入中接受输入,一般是键盘或重定向结果。

通过sed脚本对a.txt进行处理,a.txt文件内容如下:

创建sed脚本文件append.sed,通过sed脚本向a.txt中新增内容,脚本内容如下:


第一行是sed命令解释行。脚本在这一行查找sed以运行命令,这里定位在/bin。

第二行以/company/开始,这是附加操作起始位置。a\通知sed这是一个附加操作,首先应插入二个新行。

第三、四行是附加操作要加入到拷贝的实际文本。

这里只举例通过sed脚本增加新行的操作,有关sed的其他操作大家要会举一反三。

printf是一个把从标准输入的字符按照你所要求的格式输出到标准输出即屏幕的命令. 在很多时候,我们可能需要将自己的数据给他格式化输出的。例如考试分数的输出:假设有一个文件kang.txt记录着考试分数,内容如下图所示:

上表的数据主要分成五个字段,各个字段之间可使用 tab 或空格键进行分隔。

关于格式方面的几个特殊样式

接下来我们来进行几个常见的练习。假设所有的数据都是一般文字 (这也是最常见的状态),因此最常用来分隔数据的符号就是 [Tab] 。因为 [Tab] 按键可以将数据作个整齐的排列!那么如何利用 printf 命令?

例如1:下列命令是以整数形式输出23并换行;以字符串形式输出hello并换行.

例如2:下列命令是以4位整数形式输出23并换行;以7位字符串形式输出hello并换行.

如上所示,printf命令的输出结果并没有对齐,%s代表一个不固定长度的字符串,而字符串与字符串中间就以 \t 这个 [tab] 分隔符来处理。既然每个字段的长度不固定会造成上述的困扰,那我将每个字段固定就好啦。

将kang.txt文件中的内容,分别以字符串、整数、小数点来显示:

上面的格式共分为五个字段, %10s 代表的是一个长度为 10 个字符的字符串字段,%5i 代表的是长度为 5 个字符的数字字段,至于那个 %8.2f 则代表长度为 8 个字符的具有小数点的字段,其中小数点有两个字符宽度;全部的宽度仅有 8 个字符,整数部分占有 5 个字符,小数点本身 (.) 占一位,小数点后的位数则有两位。

printf 除了可以格式化处理之外,他还可以依据ASCII 的数字与字符对应来显示数据,举例来说 16 进位的 55 可以得到什么 ASCII 的显示字符?


awk也是一个数据处理工具!相较于 sed 常常作用于一整个行的处理, awk 则比较倾向于一行当中分成数个字段来处理。

.awk语言的最基本功能是在文件或字符串中基于指定规则来分解抽取信息,也可以基于指定的规则来输出数据。

其中,[-F域分隔符]是可选的,因为awk使用空格或tab键作为缺省的域分隔符,因此如果要浏览域间有空格的文本,不必指定这个选项,如果要浏览诸如passwd文件,此文件各域以冒号作为分隔符,则必须指明-F选项,如:awk -F: 'commands' input-file。

注意:在linux系统中用环境变量IFS存储分隔符,但根据实际应用也可以改变IFS的值.


iput_files可以是多于一个文件的文件列表,awk将按顺序处理列表中的每个文件。

在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格或tab键。

将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,以便通过键入脚本名称来调用。

3.将所有的awk命令插入一个单独文件,然后调用:

在一个awk脚本中可能有许多语句。

模式部分决定动作语句何时触发及触发事件。处理即对数据进行的操作。如果省略模式部分,动作将时刻保持执行状态。即省略时不对输入记录进行匹配比较就执行相应的actions。

模式可以是任何条件语句或正则表达式等。awk_pattern可以是以下几种类型:

(2.)布尔表达式用作awk_pattern,表达式成立时,触发相应的actions执行。

① 表达式中可以使用变量(如字段变量$1,$2等)和/regexp/

② 布尔表达式中的操作符:

③ &&(与) 和 ||(或) 可以连接两个/regexp/或者布尔表达式,构成混合表达式。!(非) 可以用于布尔表达式或者/regexp/之前。

模式包括两个特殊字段 BEGIN和END。使用BEGIN语句设置计数和打印头。BEGIN语句使用在任何文本浏览动作之前,之后文本浏览动作依据输入文本开始执行。END语句用来在awk完成文本浏览动作后打印输出文本总数和结尾状态标志。

实际动作在大括号{ }内指明。动作大多数用来打印,但是还有些更长的代码诸如i f和循环语句及循环退出结构。如果不指明采取动作,awk将打印出所有浏览出来的记录。

awk执行时,其浏览域标记为$1,$2...$n。这种方法称为域标识。使用这些域标识将更容易对域进行进一步处理。

使用$1 , $3表示参照第1和第3域,注意这里用逗号做域分隔。如果希望打印一个有5个域

为打印一个域或所有域,使用print命令。这是一个awk动作

②  awk从输入文件中读取一行,称为一条输入记录。(如果输入文件省略,将从标准输入读取)

③  awk将读入的记录分割成字段,将第1个字段放入变量$1中,第2个字段放入$2,以此类推。$0表示整条记录。

④  把当前输入记录依次与每一个awk_cmd中awk_pattern比较,看是否匹配,如果相匹配,就执行对应的actions。如果不匹配,就跳过对应的actions,直到比较完所有的awk_cmd。

⑤  当一条输入记录比较了所有的awk_cmd后,awk读取输入的下一行,继续重复步骤③和④,这个过程一直持续,直到awk读取到文件尾。

如果只是显示/etc/passwd文件中的用户名和登录shell, 而账户与shell之间以逗号分割

注:awk的总是输出到标准输出,如果想让awk输出到文件,可以使用重定向。

例3:如果只是显示/etc/passwd文件中的UID大于500的用户名和登录shell,而账户与shell之间以逗号分割,

1.awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动作

2.awk工作流程是这样的:先执行BEGING,然后读取文件,读入有\n换行符分割的一条记录,

然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作。

接着开始读入第二条记录······直到所有的记录都读完,最后执行END操作。

思考题:如何打印所有记录(以/etc/passwd中的内容为例)

这种是pattern(模式)的使用示例,匹配了pattern(这里是root)的行才会执行action(没有指定action,默认输出每行的内容)。

搜索支持正则表达式,例如找root开头的:

例5:显示最近登录系统的5个用户信息,只显示用户名和IP地址

使用last命令可以查看最近登录的用户信息。如下图所示:

使用awk命令抽取用户名和IP区域的数据

awk有许多内置变量用来设置环境信息,下面给出了最常用的一些变量。

例6:统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容:

显示所有账户的记录,并带有其记录号,并在END部分打印输入文件名

除了awk的内置变量,awk还可以自定义变量

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句,而action{}可以有多个语句,以;号隔开。

这里没有初始化count,虽然默认是0,但是妥当的做法还是初始化为0:

例8:统计某个文件夹下的文件占用的字节数

注意:以上统计没有包括子目录中的文件。

如果想快速查看所有文件的长度及其总和,但要排除子目录,如何实现:

六、函数及脚本的综合应用

1shell函数:shell允许将一组命令集或语句形成一个可用块,这些块称为shell函数。

函数由两部分组成:函数标题、函数体。

标题是函数名。函数体是函数内的命令集合。

标题名应该唯一;如果不是,将会混淆结果,因为脚本在查看调用脚本前将首先搜索函数调用相应的shell

2定义函数的格式为:

如果愿意,可在函数名前加上关键字function,这取决于使用者。

例1:删除文件中的空行

这个脚本(脚本名为del.lines)可以处理一个或多个文件。每个文件在用sed删除空行之前要先核实是否存在。

sed的输出被导入一个文件名中含有$ $的临时文件,最后这个临时文件又被移回到原来的文件中。

该脚本使用shift命令取得所有的文件名,用while循环逐个处理所有的文件,直至处理完

1、basename命令能够从路径中分离出文件名。通常用于shell脚本中

2、shift语句用于迁移位置变量,将 $1~$9 依次向左传递

例如,若当前脚本程序获得的位置变量如下:

则执行一次shift命令后,各位置变量为:

再次执行shift命令后,各位置变量为:

例2:如果某些日志文件超过了特定的长度(如8K),那么它的内容将被倒换到另一个文件中,并清除原有文件中的内容.

 系统中的有些日志文件增长十分迅速,每天手工检查这些日志文件的长度并倒换这些日志文件(通常是给文件名加个时间戳)是非常乏味的。可以编写一个脚本来自动完成这项工作。该脚本将提交给cron进程来运行,如果某个日志文件超过了特定的长度,那么它的内容将被倒换到另一个文件中,并清除原有文件中的内容。

该脚本中日志文件的长度限制是由变量BLOCK_LIMIT设定的。这一数字代表了块数目,在本例中是8(块大小默认为4K)。可以按照自己的需求把这一数字设得更高。所有要检查的日志文件名都保存在变量LOGS中。

这里使用了一个for循环来依次检查每一个日志文件,使用du命令来获取日志文件长度。

如果相应的文件长度大于BLOCK_LIMIT变量所规定的值,那么该文件将被拷贝到一个文件

名含有时间戳的文件中,原先的文件长度将被截断为0。

注:du 并不是显示文件的实际大小,而是显示文件所占用的 block 大小,默认linux系统分区的 block size 4k,也就是说即使文件只有1个字节,也会占用4k.
ls -l
则是文件的实际大小。

到这里有关grep、sed、awk、shell、函数、printf的基本命令演示完毕!!!

希望对你有所帮助!!!@再见!!!


}


· TA获得超过1.1万个赞

本回答被提问者和网友采纳

}

这是本人的再一套优质课程,目的是让在座的各位能够真正玩转awk这个文本处理工具,熟悉这类文本处理工具的文本处理思路,将awk玩成人精。内容比较多,干货也非常多。

学习本课程,对使用Perl、Python等语言处理文本的思路也有帮助。

2.读取文件的几种方式

6.详细解释awk命令行结构和语法结构

8.解释awk如何读取文件以及RS变量

9.特殊的RS值解决特殊的读取需求

11.awk划分字段的过程以及引用字段

12.划分字段方式(1):FS字段分隔符

14.划分字段方式(3):FPAT收集字段

15.检测使用何种方式划分字段

16.修改字段或NF的值导致$0重建的联动效应

17.awk筛选数据和处理字段的几个示例

19.详细分析awk的工作流程

27.awk中变量赋值的技巧

29.awk基本数据类型和类型转换

30.数值字面量和字符串字面量

31.正则匹配的坑以及4.2.0版本支持的正则类型

32.gawk中支持的正则表达式

33.布尔值和逻辑运算

34.读取指定范围的行

37.流程控制结构:if语句

38.流程控制结构:三目运算

44.判断数组中是否包含某元素

47.指定遍历数组时的顺序

48.awk实战案例(2):使用数组进行统计

51.内置函数:数值类内置函数

52.字符串内置函数(1)

53.字符串内置函数(2)

57.参数传值方式:按值传递还是按引用传递

58.作用域和局部变量的实现

59.自定义函数的示例

61.awk将日志中的时间字符串转换成数值时间

64.awk实战案例(4):前后段落依赖判断

66.awk实战案例(6):**到秒的日志时间筛选

}

我要回帖

更多关于 awk判断字符串尾 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信