02_shell高級文本處理

知識點

  • sort
  • uniq
  • cut
  • wc
  • sed命令
  • awk命令
  • crontab定時器

sort

sort 命令對 File 參數(shù)指定的文件中的行排序,并將結(jié)果寫到標(biāo)準(zhǔn)輸出。如果 File 參數(shù)指定多個文件,那么 sort 命令將這些文件連接起來,并當(dāng)作一個文件進行排序。

sort語法

[root@www ~]# sort [-fbMnrtuk] [file or stdin]

選項與參數(shù):
-f :忽略大小寫的差異,例如 A 與 a 視為編碼相同;
-b :忽略最前面的空格符部分;
-M :以月份的名字來排序,例如 JAN, DEC 等等的排序方法;
-n :使用『純數(shù)字』進行排序(默認是以文字型態(tài)來排序的);
-r :反向排序;
-u :就是 uniq ,相同的數(shù)據(jù)中,僅出現(xiàn)一行代表;
-t :分隔符,默認是用 [tab] 鍵來分隔;
-k :以那個區(qū)間 (field) 來進行排序的意思

對/etc/passwd 的賬號進行排序

[root@www ~]# cat /etc/passwd | sort
adm:x:3:4:adm:/var/adm:/sbin/nologin
apache:x:48:48:Apache:/var/www:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

sort 是默認以第一個數(shù)據(jù)來排序,而且默認是以字符串形式來排序,所以由字母 a 開始升序排序。

/etc/passwd 內(nèi)容是以 : 來分隔的,我想以第三欄來排序,該如何

[root@www ~]# cat /etc/passwd | sort -t ':' -k 3
root:x:0:0:root:/root:/bin/bash
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin

默認是以字符串來排序的,如果想要使用數(shù)字排序:

cat /etc/passwd | sort -t ':' -k 3n
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh

默認是升序排序,如果要倒序排序,如下

cat /etc/passwd | sort -t ':' -k 3nr
nobody:x:65534:65534:nobody:/nonexistent:/bin/sh
ntp:x:106:113::/home/ntp:/bin/false
messagebus:x:105:109::/var/run/dbus:/bin/false
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

如果要對/etc/passwd,先以第六個域的第2個字符到第4個字符進行正向排序,再基于第一個域進行反向排序。

cat /etc/passwd |  sort -t':' -k 6.2,6.4 -k 1r      
sync:x:4:65534:sync:/bin:/bin/sync
proxy:x:13:13:proxy:/bin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh

查看/etc/passwd有多少個shell:對/etc/passwd的第七個域進行排序,然后去重:

cat /etc/passwd |  sort -t':' -k 7 -u
root:x:0:0:root:/root:/bin/bash
syslog:x:101:102::/home/syslog:/bin/false
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

uniq

uniq命令可以去除排序過的文件中的重復(fù)行,因此uniq經(jīng)常和sort合用。也就是說,為了使uniq起作用,所有的重復(fù)行必須是相鄰的。

uniq語法

[root@www ~]# uniq [-icu]

選項與參數(shù):
-i :忽略大小寫字符的不同;
-c :進行計數(shù)
-u :只顯示唯一的行

testfile的內(nèi)容如下

cat testfile
hello
world
friend
hello
world
hello

直接刪除未經(jīng)排序的文件,將會發(fā)現(xiàn)沒有任何行被刪除

#uniq testfile  
hello
world
friend
hello
world
hello

排序文件,默認是去重

#cat testfile | sort |uniq
friend
hello
world

排序之后刪除了重復(fù)行,同時在行首位置輸出該行重復(fù)的次數(shù)

#sort testfile | uniq -c
1 friend
3 hello
2 world

僅顯示存在重復(fù)的行,并在行首顯示該行重復(fù)的次數(shù)

#sort testfile | uniq -dc
3 hello
2 world

僅顯示不重復(fù)的行

sort testfile | uniq -u
friend  

cut

cut命令可以從一個文本文件或者文本流中提取文本列。

cut語法

[root@www ~]# cut -d'分隔字符' -f fields <==用于有特定分隔字符
[root@www ~]# cut -c 字符區(qū)間            <==用于排列整齊的信息

選項與參數(shù):
-d :后面接分隔字符。與 -f 一起使用;
-f :依據(jù) -d 的分隔字符將一段信息分割成為數(shù)段,用 -f 取出第幾段的意思;
-c :以字符 (characters) 的單位取出固定字符區(qū)間;

PATH 變量如下

[root@www ~]# echo $PATH
/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games
# 1 | 2       | 3   | 4       | 5            | 6            | 7

將 PATH 變量取出,我要找出第五個路徑。

#echo $PATH | cut -d ':' -f 5
/usr/local/bin

將 PATH 變量取出,我要找出第三和第五個路徑。

#echo $PATH | cut -d ':' -f 3,5
/sbin:/usr/local/bin

將 PATH 變量取出,我要找出第三到最后一個路徑。

echo $PATH | cut -d ':' -f 3-
/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

將 PATH 變量取出,我要找出第一到第三個路徑。

#echo $PATH | cut -d ':' -f 1-3
/bin:/usr/bin:/sbin:

將 PATH 變量取出,我要找出第一到第三,還有第五個路徑。

echo $PATH | cut -d ':' -f 1-3,5
/bin:/usr/bin:/sbin:/usr/local/bin

實用例子:只顯示/etc/passwd的用戶和shell

#cat /etc/passwd | cut -d ':' -f 1,7 
root:/bin/bash
daemon:/bin/sh
bin:/bin/sh

wc

統(tǒng)計文件里面有多少單詞,多少行,多少字符。

wc語法

[root@www ~]# wc [-lwm]

選項與參數(shù):
-l :統(tǒng)計出行數(shù)
-w :統(tǒng)計出多少字(英文單字);
-m :統(tǒng)計字符數(shù)
-c :統(tǒng)計字節(jié)數(shù)
-L : --max-line-length 顯示最長行的長度

默認使用wc統(tǒng)計/etc/passwd

#wc /etc/passwd
40   45 1719 /etc/passwd
40是行數(shù),45是單詞數(shù),1719是字節(jié)數(shù)

wc的命令比較簡單使用,每個參數(shù)使用如下:

#wc -l /etc/passwd   #統(tǒng)計行數(shù),在對記錄數(shù)時,很常用
40 /etc/passwd       #表示系統(tǒng)有40個賬戶

#wc -w /etc/passwd  #統(tǒng)計單詞出現(xiàn)次數(shù)
45 /etc/passwd

#wc -m /etc/passwd  #統(tǒng)計文件的字符數(shù)
1719

參考 :
Linux私房菜
Linux Shell常用技巧(一)

SED

Sed簡介

  • sed 是一種在線編輯器,它一次處理一行內(nèi)容。處理時,把當(dāng)前處理的行存儲在臨時緩沖區(qū)中,稱為“模式空間”(pattern space),接著用sed命令處理緩沖區(qū)中的內(nèi)容,處理完成后,把緩沖區(qū)的內(nèi)容送往屏幕。接著處理下一行,這樣不斷重復(fù),直到文件末尾。文件內(nèi)容并沒有 改變,除非你使用重定向存儲輸出。Sed主要用來自動編輯一個或多個文件;簡化對文件的反復(fù)操作;編寫轉(zhuǎn)換程序等。以下介紹的是Gnu版本的Sed 3.02。
  • sed全稱是:Stream EDitor即流編輯器,是一個很好的文本處理工具,本身是一個管道命令,處理時,把當(dāng)前處理的行存儲在臨時緩沖區(qū)中,接著用sed命令處理緩沖區(qū)中的內(nèi)容,處理完成后,把緩沖區(qū)的內(nèi)容送往屏幕。接著處理下一行。它是以行為單位進行處理,可以將數(shù)據(jù)行進行替換、刪除、新增、選取等特定工作。

sed選項

  • -n :使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN 的數(shù)據(jù)一般都會被列出到終端上。但如果加上 -n 參數(shù)后,則只有經(jīng)過sed 特殊處理的那一行(或者動作)才會被列出來。
  • -e :直接在命令列模式上進行 sed 的動作編輯;
  • -i :直接修改讀取的文件內(nèi)容,而不是輸出到終端。

sed function

  • a :新增, a 的后面可以接字串,而這些字串會在新的一行出現(xiàn)(目前的下一行)
  • d :刪除,因為是刪除啊,所以 d 后面通常不接任何內(nèi)容
  • i :插入, i 的后面可以接字串,而這些字串會在新的一行出現(xiàn)(目前的上一行)
  • p :列印,亦即將某個選擇的數(shù)據(jù)印出。通常 p 會與參數(shù) sed -n 一起運行
  • s :取代,可以直接進行取代的工作!通常這個 s 的動作可以搭配正規(guī)表示法!例如 1,20s/old/new/g

定址

可以通過定址來定位你所希望編輯的行,該地址用數(shù)字構(gòu)成,用逗號分隔的兩個行數(shù)表示以這兩行為起止的行的范圍(包括行數(shù)表示的那兩行)。如1,3表示1,2,3行,美元符號($)表示最后一行。范圍可以通過數(shù)據(jù),正則表達式或者二者結(jié)合的方式確定 。

Sed命令

調(diào)用sed命令有兩種形式:

  • sed [options] 'command' file(s)
  • sed [options] -f scriptfile file(s)
#將 /etc/passwd 的內(nèi)容列出并且列印行號,同時,請將第 2~5 行刪除!注意一下,原本應(yīng)該是要下達 sed -e 才對,沒有 -e 也行!
nl /etc/passwd | sed '2,5d'

#要刪除第 3 到最后一行
nl /etc/passwd | sed '3,$d' 

#在第二行后(亦即是加在第三行)加上itcast
nl /etc/passwd | sed '2a itcast'

#如果是在第二行前面
nl /etc/passwd | sed '2i itcast'

#僅列出 /etc/passwd 文件內(nèi)的第 5-7 行
nl /etc/passwd | sed -n '5,7p'

#獲取當(dāng)前eth0網(wǎng)卡的IP地址
ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
ifconfig eth0 | grep 'inet addr' | cut -d : -f2 | cut -d ' '  -f1
#練習(xí)
cat /etc/passwd > passwd.bak
#在第2行后面插入itcast字符
sed -i '3a itcast' passwd.bak

#刪除文件中的第2行到第5行
sed -i '2,5d' passwd.bak

#使用\來進行轉(zhuǎn)義或使用#
sed -i 's/\/bin\/bash/\/itcast/g' passwd.bak
sed -i 's#/bin/bash#/itcast#g' passwd.bak

#刪除一個文件已#開頭的行和空行
sed -i -e '/^#/d' -e '/^$/d' abc.txt

a\
在當(dāng)前行后面加入一行文本。
b lable
分支到腳本中帶有標(biāo)記的地方,如果分支不存在則分支到腳本的末尾。
c\
用新的文本改變本行的文本。
d
從模板塊(Pattern space)位置刪除行。
D
刪除模板塊的第一行。
i\
在當(dāng)前行上面插入文本。
h
拷貝模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)。
H
追加模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)
g
獲得內(nèi)存緩沖區(qū)的內(nèi)容,并替代當(dāng)前模板塊中的文本。
G
獲得內(nèi)存緩沖區(qū)的內(nèi)容,并追加到當(dāng)前模板塊文本的后面。
l
列表不能打印字符的清單。
n
讀取下一個輸入行,用下一個命令處理新的行而不是用第一個命令。
N
追加下一個輸入行到模板塊后面并在二者間嵌入一個新行,改變當(dāng)前行號碼。
p
打印模板塊的行。
P(大寫)
打印模板塊的第一行。
q
退出Sed。
r file
從file中讀行。
t label
if分支,從最后一行開始,條件一旦滿足或者T,t命令,將導(dǎo)致分支到帶有標(biāo)號的命令處,或者到腳本的末尾。
T label
錯誤分支,從最后一行開始,一旦發(fā)生錯誤或者T,t命令,將導(dǎo)致分支到帶有標(biāo)號的命令處,或者到腳本的末尾。
w file
寫并追加模板塊到file末尾。
W file
寫并追加模板塊的第一行到file末尾。
!
表示后面的命令對所有沒有被選定的行發(fā)生作用。
s/re/string
用string替換正則表達式re。
=
打印當(dāng)前行號碼。
#
把注釋擴展到下一個換行符以前。
以下的是替換標(biāo)記

  • g表示行內(nèi)全面替換。
  • p表示打印行。
  • w表示把行寫入一個文件。
  • x表示互換模板塊中的文本和緩沖區(qū)中的文本。
  • y表示把一個字符翻譯為另外的字符(但是不用于正則表達式)

選項

-e command, --expression=command
允許多臺編輯。
-h, --help
打印幫助,并顯示bug列表的地址。
-n, --quiet, --silent
取消默認輸出。
-f, --filer=script-file
引導(dǎo)sed腳本文件名。
-V, --version
打印版本和版權(quán)信息。

元字符集

^
錨定行的開始 如:/^sed/匹配所有以sed開頭的行。
$
錨定行的結(jié)束 如:/sed$/匹配所有以sed結(jié)尾的行。
.
匹配一個非換行符的字符 如:/s.d/匹配s后接一個任意字符,然后是d。
*
匹配零或多個字符 如:/sed/匹配所有模板是一個或多個空格后緊跟sed的行。
[]
匹配一個指定范圍內(nèi)的字符,如/[Ss]ed/匹配sed和Sed。
[^]
匹配一個不在指定范圍內(nèi)的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一個字母開頭,緊跟ed的行。
\(..\)
保存匹配的字符,如s/(love)able/\1rs,loveable被替換成lovers。
&
保存搜索字符用來替換其他字符,如s/love/
&/,love這成love*。
\<
錨定單詞的開始,如:/<love/匹配包含以love開頭的單詞的行。
\>
錨定單詞的結(jié)束,如/love>/匹配包含以love結(jié)尾的單詞的行。
x\{m\}
重復(fù)字符x,m次,如:/o{5}/匹配包含5個o的行。
x\{m,\}
重復(fù)字符x,至少m次,如:/o{5,}/匹配至少有5個o的行。
x\{m,n\}
重復(fù)字符x,至少m次,不多于n次,如:/o{5,10}/匹配5--10個o的行。

實例

刪除:d命令

  • $ sed '2d' example
    -----刪除example文件的第二行。
  • $ sed '2,$d' example
    -----刪除example文件的第二行到末尾所有行。
  • $ sed '$d' example
    -----刪除example文件的最后一行。
  • $ sed '/test/'d example
    -----刪除example文件所有包含test的行。
  • $ sed -i '2d' example
    ----刪除example文件第二行,并將刪除后的結(jié)果寫入(覆蓋寫入)example文件

替換:s命令

  • $ sed 's/test/mytest/g' example
    -----在整行范圍內(nèi)把test替換為mytest。如果沒有g(shù)標(biāo)記,則只有每行第一個匹配的test被替換成mytest。
  • $ sed -n 's/^test/mytest/p' example
    -----(-n)選項和p標(biāo)志一起使用表示只打印那些發(fā)生替換的行。也就是說,如果某一行開頭的test被替換成mytest,就打印它。
  • $ sed 's/^192.168.0.1/&localhost/' example
    -----&符號表示替換換字符串中被找到的部份。所有以192.168.0.1開頭的行都會被替換成它自已加 localhost,變成192.168.0.1localhost。
  • $ sed -n 's/\(love\)able/\1rs/p' example
    -----love被標(biāo)記為1,所有l(wèi)oveable會被替換成lovers,而且替換的行會被打印出來。
  • $ sed 's#10#100#g' example
    -----不論什么字符,緊跟著s命令的都被認為是新的分隔符,所以,“#”在這里是分隔符,代替了默認的“/”分隔符。表示把所有10替換成100。
    選定行的范圍:逗號
  • $ sed -n '/test/,/check/p' example
    -----所有在模板test和check所確定的范圍內(nèi)的行都被打印。
  • $ sed -n '5,/^test/p' example
    -----打印從第五行開始到第一個包含以test開始的行之間的所有行。
  • $ sed '/test/,/check/s/$/sed test/' example-----對于模板test和west之間的行,每行的末尾用字符串sed test替換。
[root@hadoop shell]# cat testfile 
hello
friend
hello
world
hello
nihao
hahaha
hehehe
everybody
goodbye

[root@hadoop shell]# sed -n 's/^hello/&my/p' testfile 
hellomy
hellomy
hellomy

[root@hadoop shell]# sed 's/ha\(ha\)ha/**\1**/p' testfile   
hello
friend
hello
world
hello
nihao
**ha**
**ha**
hehehe
everybody
goodbye

[root@hadoop shell]# sed 's/\(ha\)ha\(ha\)/\1**\2/p' testfile 
hello
friend
hello
world
hello
nihao
ha**ha
ha**ha
hehehe
everybody
goodbye

多點編輯:e命令

  • $ sed -e '1,5d' -e 's/test/check/' example
    -----(-e)選項允許在同一行里執(zhí)行多條命令。如例子所示,第一條命令刪除1至5行,第二條命令用check替換test。命令的執(zhí) 行順序?qū)Y(jié)果有影響。如果兩個命令都是替換命令,那么第一個替換命令將影響第二個替換命令的結(jié)果。
  • $ sed --expression='s/test/check/' --expression='/love/d' example
    -----一個比-e更好的命令是--expression。它能給sed表達式賦值。

從文件讀入:r命令

  • $ sed '/test/r file' example
    -----file里的內(nèi)容被讀進來,顯示在與test匹配的行后面,如果匹配多行,則file的內(nèi)容將顯示在所有匹配行的下面。

寫入文件:w命令

  • $ sed -n '/test/w file' example
    -----在example中所有包含test的行都被寫入file里。

追加命令:a命令

  • $ sed '/^test/a\\--->this is a example' example '
    ----->this is a example'被追加到以test開頭的行后面,sed要求命令a后面有一個反斜杠。

插入:i命令

$ sed '/test/i\\
new line
-------------------------' example

如果test被匹配,則把反斜杠后面的文本插入到匹配行的前面。

下一個:n命令

  • $ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配,則移動到匹配行的下一行,替換這一行的aa,變?yōu)閎b,并打印該行,然后繼續(xù)。
    變形:y命令
  • $ sed '1,10y/abcde/ABCDE/' example-----把1--10行內(nèi)所有abcde轉(zhuǎn)變?yōu)榇髮懀⒁猓齽t表達式元字符不能使用這個命令。

退出:q命令

  • $ sed '10q' example-----打印完第10行后,退出sed。
    保持和獲取:h命令和G命令
  • $ sed -e '/test/h' -e '$G example-----在sed處理文件的時候,每一行都被保存在一個叫模式空間的臨時緩沖區(qū)中,除非行被刪除或者輸出被取消,否則所有被處理的行都將 打印在屏幕上。接著模式空間被清空,并存入新的一行等待處理。在這個例子里,匹配test的行被找到后,將存入模式空間,h命令將其復(fù)制并存入一個稱為保 持緩存區(qū)的特殊緩沖區(qū)內(nèi)。第二條語句的意思是,當(dāng)?shù)竭_最后一行后,G命令取出保持緩沖區(qū)的行,然后把它放回模式空間中,且追加到現(xiàn)在已經(jīng)存在于模式空間中 的行的末尾。在這個例子中就是追加到最后一行。簡單來說,任何包含test的行都被復(fù)制并追加到該文件的末尾。
    保持和互換:h命令和x命令
  • $ sed -e '/test/h' -e '/check/x' example -----互換模式空間和保持緩沖區(qū)的內(nèi)容。也就是把包含test與check的行互換。

腳本

Sed腳本是一個sed的命令清單,啟動Sed時以-f選項引導(dǎo)腳本文件名。Sed對于腳本中輸入的命令非常挑剔,在命令的末尾不能有任何空白或文本,如果在一行中有多個命令,要用分號分隔。以#開頭的行為注釋行,且不能跨行。

AWK

簡介

  • AWK是一種優(yōu)良的文本處理工具。其名稱得自于它的創(chuàng)始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母,AWK 提供了極其強大的功能:可以進行樣式裝入、流控制、數(shù)學(xué)運算符、進程控制語句甚至于內(nèi)置的變量和函數(shù)。它具備了一個完整的語言所應(yīng)具有的幾乎所有精美特性。實際上 AWK 的確擁有自己的語言:AWK 程序設(shè)計語言, 三位創(chuàng)建者已將它正式定義為“樣式掃描和處理語言”。它允許您創(chuàng)建簡短的程序,這些程序讀取輸入文件、為數(shù)據(jù)排序、處理數(shù)據(jù)、對輸入執(zhí)行計算以及生成報表,還有無數(shù)其他的功能。
  • awk是一個強大的文本分析工具,相對于grep的查找,sed的編輯,awk在其對數(shù)據(jù)分析并生成報告時,顯得尤為強大。簡單來說awk就是把文件逐行的讀入,以空格為默認分隔符將每行切片,切開的部分再進行各種分析處理。
  • awk有3個不同版本:awknawkgawk,未作特別說明,一般指gawk,gawk 是 AWK 的 GNU 版本。
  • awk其名稱得自于它的創(chuàng)始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言: AWK 程序設(shè)計語言 , 三位創(chuàng)建者已將它正式定義為“樣式掃描和處理語言”。它允許您創(chuàng)建簡短的程序,這些程序讀取輸入文件、為數(shù)據(jù)排序、處理數(shù)據(jù)、對輸入執(zhí)行計算以及生成報表,還有無數(shù)其他的功能。

使用方法

awk '{pattern + action}' {filenames}

  • 盡管操作可能會很復(fù)雜,但語法總是這樣,其中 pattern 表示 AWK 在數(shù)據(jù)中查找的內(nèi)容,而 action 是在找到匹配內(nèi)容時所執(zhí)行的一系列命令。花括號({})不需要在程序中始終出現(xiàn),但它們用于根據(jù)特定的模式對一系列指令進行分組。 pattern就是要表示的正則表達式,用斜杠括起來。
  • awk語言的最基本功能是在文件或者字符串中基于指定規(guī)則瀏覽和抽取信息,awk抽取信息后,才能進行其他文本操作。完整的awk腳本通常用來格式化文本文件中的信息。
  • 通常,awk是以文件的一行為處理單位的。awk每接收文件的一行,然后執(zhí)行相應(yīng)的命令,來處理文本。

調(diào)用awk

有三種方式調(diào)用awk

  1. 命令行方式
    awk [-F field-separator] 'commands' input-file(s)
    其中,commands 是真正awk命令,[-F域分隔符]是可選的。 input-file(s) 是待處理的文件。
    在awk中,文件的每一行中,由域分隔符分開的每一項稱為一個域。通常,在不指名-F域分隔符的情況下,默認的域分隔符是空格。
  2. shell腳本方式
    將所有的awk命令插入一個文件,并使awk程序可執(zhí)行,然后awk命令解釋器作為腳本的首行,一遍通過鍵入腳本名稱來調(diào)用。
    相當(dāng)于shell腳本首行的:#!/bin/sh
    可以換成:#!/bin/awk
  3. 將所有的awk命令插入一個單獨文件,然后調(diào)用:
    awk -f awk-script-file input-file(s)
    其中,-f選項加載awk-script-file中的awk腳本,input-file(s)跟上面的是一樣的。

本章重點介紹命令行方式。

AWK命令

  • awk命令格式

awk 'pattern1 {action1} pattern2 {action2} ...' filename

cat /etc/passwd | awk -F ':' '{print $0}'
awk -F ':' '{print $2}' /etc/passwd

awk -F ':' '1>0 {print $1} 2>1 {print $2}' /etc/passwd

awk 'BEGIN {print "this file is /etc/passwd"} {print $0}' /etc/passwd

awk -F ':' 'BEGIN {print "this file is /etc/passwd"} {print $1}' /etc/passwd

awk '{FS=":"} {print $1}' /etc/passwd
awk 'BEGIN {FS=":"} {print $1}' /etc/passwd

awk 'END {print "end of file"} {print $1}' /etc/passwd

ifconfig eth0 | grep 'inet addr' | awk -F ":" '{print $2}' | awk '{print $1}'

入門實例

  • 假設(shè)last -n 5的輸出如下
[root@www ~]# last -n 5 <==僅取出前五行
root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)
  • 如果只是顯示最近登錄的5個帳號
#last -n 5 | awk  '{print $1}'
root
root
root
dmtsai
root

awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄,然后將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。默認域分隔符是"空白鍵" 或 "[tab]鍵",所以$1表示登錄用戶,$3表示登錄用戶ip,以此類推。

  • 如果只是顯示/etc/passwd的賬戶
#cat /etc/passwd |awk  -F ':'  '{print $1}'  
root
daemon
bin
sys

這種是awk+action的示例,每行都會執(zhí)行action{print $1}。
??-F指定域分隔符為':'。

  • 如果只是顯示/etc/passwd的賬戶和賬戶對應(yīng)的shell,而賬戶與shell之間以tab鍵分割
#cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}'
root    /bin/bash
daemon  /bin/sh
bin     /bin/sh
sys     /bin/sh
  • 如果只是顯示/etc/passwd的賬戶和賬戶對應(yīng)的shell,而賬戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。
cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh

awk工作流程是這樣的:先執(zhí)行BEGING,然后讀取文件,讀入有/n換行符分割的一條記錄,然后將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域,隨后開始執(zhí)行模式所對應(yīng)的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完,最后執(zhí)行END操作。

  • 搜索/etc/passwd有root關(guān)鍵字的所有行
#awk -F: '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash

這種是pattern的使用示例,匹配了pattern(這里是root)的行才會執(zhí)行action(沒有指定action,默認輸出每行的內(nèi)容)。
??搜索支持正則,例如找root開頭的: awk -F: '/^root/' /etc/passwd

  • 搜索/etc/passwd有root關(guān)鍵字的所有行,并顯示對應(yīng)的shell
# awk -F: '/root/{print $7}' /etc/passwd             
/bin/bash

這里指定了action{print $7}

awk內(nèi)置變量

awk有許多內(nèi)置變量用來設(shè)置環(huán)境信息,這些變量可以被改變,下面給出了最常用的一些變量。

  • ARGC 命令行參數(shù)個數(shù)
  • ARGV 命令行參數(shù)排列
  • ENVIRON 支持隊列中系統(tǒng)環(huán)境變量的使用
  • FILENAME awk瀏覽的文件名
  • FNR 瀏覽文件的記錄數(shù)
  • FS 設(shè)置輸入域分隔符,等價于命令行 -F選項
  • NF 瀏覽記錄的域的個數(shù)
  • NR 已讀的記錄數(shù)
  • OFS 輸出域分隔符
  • ORS 輸出記錄分隔符
  • RS 控制記錄分隔符

此外,$0變量是指整條記錄。$1表示當(dāng)前行的第一個域,$2表示當(dāng)前行的第二個域,......以此類推。

統(tǒng)計/etc/passwd:文件名,每行的行號,每行的列數(shù),對應(yīng)的完整行內(nèi)容:

#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh
filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh
filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以讓代碼更加簡潔,易讀

 awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

print和printf
awk中同時提供了print和printf兩種打印輸出的函數(shù)。

其中print函數(shù)的參數(shù)可以是變量、數(shù)值或者字符串。字符串必須用雙引號引用,參數(shù)用逗號分隔。如果沒有逗號,參數(shù)就串聯(lián)在一起而無法區(qū)分。這里,逗號的作用與輸出文件的分隔符的作用是一樣的,只是后者是空格而已。

printf函數(shù),其用法和c語言中printf基本相似,可以格式化字符串,輸出復(fù)雜時,printf更加好用,代碼更易懂。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 

awk編程

  • 變量和賦值

除了awk的內(nèi)置變量,awk還可以自定義變量。
下面統(tǒng)計/etc/passwd的賬戶人數(shù)

awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
......
user count is  40

count是自定義變量。之前的action{}里都是只有一個print,其實print只是一個語句,而action{}可以有多個語句,以;號隔開。

這里沒有初始化count,雖然默認是0,但是妥當(dāng)?shù)淖龇ㄟ€是初始化為0:

awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is  0
root:x:0:0:root:/root:/bin/bash
...
[end]user count is  40

統(tǒng)計某個文件夾下的文件占用的字節(jié)數(shù)

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is  8657198

如果以M為單位顯示:

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.25889 M

注意,統(tǒng)計不包括文件夾的子目錄。

  • 條件語句

awk中的條件語句是從C語言中借鑒來的,見如下聲明方式:

if (expression) {
    statement;
    statement;
    ... ...
}

if (expression) {
    statement;
} else {
    statement2;
}

if (expression) {
    statement1;
} else if (expression1) {
    statement2;
} else {
    statement3;
}

統(tǒng)計某個文件夾下的文件占用的字節(jié)數(shù),過濾4096大小的文件(一般都是文件夾):

ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.22339 M
  • 循環(huán)語句

awk中的循環(huán)語句同樣借鑒于C語言,支持while、do/while、for、break、continue,這些關(guān)鍵字的語義和C語言中的語義完全相同。

  • 數(shù)組
    因為awk中數(shù)組的下標(biāo)可以是數(shù)字和字母,數(shù)組的下標(biāo)通常被稱為關(guān)鍵字(key)。值和關(guān)鍵字都存儲在內(nèi)部的一張針對key/value應(yīng)用hash的表格里。由于hash不是順序存儲,因此在顯示數(shù)組內(nèi)容時會發(fā)現(xiàn),它們并不是按照你預(yù)料的順序顯示出來的。數(shù)組和變量一樣,都是在使用時自動創(chuàng)建的,awk也同樣會自動判斷其存儲的是數(shù)字還是字符串。一般而言,awk中的數(shù)組用來從記錄中收集信息,可以用于計算總和、統(tǒng)計單詞以及跟蹤模板被匹配的次數(shù)等等。

顯示/etc/passwd的賬戶

awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......

這里使用for循環(huán)遍歷數(shù)組

awk編程的內(nèi)容極多,這里只羅列簡單常用的用法,更多請參考

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,800評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內(nèi)容

  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯誤還是無法避免 以后資料會慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,195評論 2 33
  • 基礎(chǔ)命令 主要的命令和快捷鍵 Linux系統(tǒng)命令由三部分組成:cmd + [options]+[operation...
    485b1aca799e閱讀 1,114評論 0 0
  • 查找目錄下的所有文件中是否含有某個字符串,并且只打印出文件名find . -name "*.type" | xar...
    水平閱讀 1,516評論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,779評論 18 139
  • 滿清的正統(tǒng),正黃旗,武英殿大學(xué)士明珠之子,他有傲人的才華,亦有傲人的家世,而他不染纖塵,遺世獨立,他愛景詞,卻最終...
    宋七爺閱讀 293評論 2 2