02_shell高級文本處理

知識點

sort
uniq
cut
wc
sed命令
awk命令
crontab定時器

sort

sort 命令對 File 參數(shù)指定的文件中的行排序，并將結(jié)果寫到標(biāo)準(zhǔn)輸出。如果 File 參數(shù)指定多個文件，那么 sort 命令將這些文件連接起來，并當(dāng)作一個文件進行排序。

sort語法

[root@www ~]# sort [-fbMnrtuk] [file or stdin]

選項與參數(shù)：
-f ：忽略大小寫的差異，例如 A 與 a 視為編碼相同；
-b ：忽略最前面的空格符部分；
-M ：以月份的名字來排序，例如 JAN, DEC 等等的排序方法；
-n ：使用『純數(shù)字』進行排序(默認是以文字型態(tài)來排序的)；
-r ：反向排序；
-u ：就是 uniq ，相同的數(shù)據(jù)中，僅出現(xiàn)一行代表；
-t ：分隔符，默認是用 [tab] 鍵來分隔；
-k ：以那個區(qū)間 (field) 來進行排序的意思

對/etc/passwd 的賬號進行排序

[root@www ~]# cat /etc/passwd | sort
adm:x:3:4:adm:/var/adm:/sbin/nologin
apache:x:48:48:Apache:/var/www:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

sort 是默認以第一個數(shù)據(jù)來排序，而且默認是以字符串形式來排序,所以由字母 a 開始升序排序。

/etc/passwd 內(nèi)容是以 : 來分隔的，我想以第三欄來排序，該如何

[root@www ~]# cat /etc/passwd | sort -t ':' -k 3
root:x:0:0:root:/root:/bin/bash
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin

默認是以字符串來排序的，如果想要使用數(shù)字排序：

cat /etc/passwd | sort -t ':' -k 3n
root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh

默認是升序排序，如果要倒序排序，如下

cat /etc/passwd | sort -t ':' -k 3nr
nobody:x:65534:65534:nobody:/nonexistent:/bin/sh
ntp:x:106:113::/home/ntp:/bin/false
messagebus:x:105:109::/var/run/dbus:/bin/false
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

如果要對/etc/passwd,先以第六個域的第2個字符到第4個字符進行正向排序，再基于第一個域進行反向排序。

cat /etc/passwd |  sort -t':' -k 6.2,6.4 -k 1r      
sync:x:4:65534:sync:/bin:/bin/sync
proxy:x:13:13:proxy:/bin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh

查看/etc/passwd有多少個shell:對/etc/passwd的第七個域進行排序，然后去重:

cat /etc/passwd |  sort -t':' -k 7 -u
root:x:0:0:root:/root:/bin/bash
syslog:x:101:102::/home/syslog:/bin/false
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync
sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

uniq

uniq命令可以去除排序過的文件中的重復(fù)行，因此uniq經(jīng)常和sort合用。也就是說，為了使uniq起作用，所有的重復(fù)行必須是相鄰的。

uniq語法

[root@www ~]# uniq [-icu]

選項與參數(shù)：
-i ：忽略大小寫字符的不同；
-c ：進行計數(shù)
-u ：只顯示唯一的行

testfile的內(nèi)容如下

cat testfile
hello
world
friend
hello
world
hello

直接刪除未經(jīng)排序的文件，將會發(fā)現(xiàn)沒有任何行被刪除

#uniq testfile  
hello
world
friend
hello
world
hello

排序文件，默認是去重

#cat testfile | sort |uniq
friend
hello
world

排序之后刪除了重復(fù)行，同時在行首位置輸出該行重復(fù)的次數(shù)

#sort testfile | uniq -c
1 friend
3 hello
2 world

僅顯示存在重復(fù)的行，并在行首顯示該行重復(fù)的次數(shù)

#sort testfile | uniq -dc
3 hello
2 world

僅顯示不重復(fù)的行

sort testfile | uniq -u
friend

cut

cut命令可以從一個文本文件或者文本流中提取文本列。

cut語法

[root@www ~]# cut -d'分隔字符' -f fields <==用于有特定分隔字符
[root@www ~]# cut -c 字符區(qū)間            <==用于排列整齊的信息

選項與參數(shù)：
-d ：后面接分隔字符。與 -f 一起使用；
-f ：依據(jù) -d 的分隔字符將一段信息分割成為數(shù)段，用 -f 取出第幾段的意思；
-c ：以字符 (characters) 的單位取出固定字符區(qū)間；

PATH 變量如下

[root@www ~]# echo $PATH
/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games
# 1 | 2       | 3   | 4       | 5            | 6            | 7

將 PATH 變量取出，我要找出第五個路徑。

#echo $PATH | cut -d ':' -f 5
/usr/local/bin

將 PATH 變量取出，我要找出第三和第五個路徑。

#echo $PATH | cut -d ':' -f 3,5
/sbin:/usr/local/bin

將 PATH 變量取出，我要找出第三到最后一個路徑。

echo $PATH | cut -d ':' -f 3-
/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

將 PATH 變量取出，我要找出第一到第三個路徑。

#echo $PATH | cut -d ':' -f 1-3
/bin:/usr/bin:/sbin:

將 PATH 變量取出，我要找出第一到第三，還有第五個路徑。

echo $PATH | cut -d ':' -f 1-3,5
/bin:/usr/bin:/sbin:/usr/local/bin

實用例子:只顯示/etc/passwd的用戶和shell

#cat /etc/passwd | cut -d ':' -f 1,7 
root:/bin/bash
daemon:/bin/sh
bin:/bin/sh

wc

統(tǒng)計文件里面有多少單詞，多少行，多少字符。

wc語法

[root@www ~]# wc [-lwm]

選項與參數(shù)：
-l ：統(tǒng)計出行數(shù)
-w ：統(tǒng)計出多少字(英文單字)；
-m ：統(tǒng)計字符數(shù)
-c ：統(tǒng)計字節(jié)數(shù)
-L ： --max-line-length 顯示最長行的長度

默認使用wc統(tǒng)計/etc/passwd

#wc /etc/passwd
40   45 1719 /etc/passwd
40是行數(shù)，45是單詞數(shù)，1719是字節(jié)數(shù)

wc的命令比較簡單使用，每個參數(shù)使用如下：

#wc -l /etc/passwd   #統(tǒng)計行數(shù)，在對記錄數(shù)時，很常用
40 /etc/passwd       #表示系統(tǒng)有40個賬戶

#wc -w /etc/passwd  #統(tǒng)計單詞出現(xiàn)次數(shù)
45 /etc/passwd

#wc -m /etc/passwd  #統(tǒng)計文件的字符數(shù)
1719

參考：
Linux私房菜
 Linux Shell常用技巧(一)

SED

Sed簡介

sed 是一種在線編輯器，它一次處理一行內(nèi)容。處理時，把當(dāng)前處理的行存儲在臨時緩沖區(qū)中，稱為“模式空間”（pattern space），接著用sed命令處理緩沖區(qū)中的內(nèi)容，處理完成后，把緩沖區(qū)的內(nèi)容送往屏幕。接著處理下一行，這樣不斷重復(fù)，直到文件末尾。文件內(nèi)容并沒有改變，除非你使用重定向存儲輸出。Sed主要用來自動編輯一個或多個文件；簡化對文件的反復(fù)操作；編寫轉(zhuǎn)換程序等。以下介紹的是Gnu版本的Sed 3.02。
sed全稱是：Stream EDitor即流編輯器，是一個很好的文本處理工具，本身是一個管道命令，處理時，把當(dāng)前處理的行存儲在臨時緩沖區(qū)中，接著用sed命令處理緩沖區(qū)中的內(nèi)容，處理完成后，把緩沖區(qū)的內(nèi)容送往屏幕。接著處理下一行。它是以行為單位進行處理，可以將數(shù)據(jù)行進行替換、刪除、新增、選取等特定工作。

sed選項

-n ：使用安靜(silent)模式。在一般 sed 的用法中，所有來自 STDIN 的數(shù)據(jù)一般都會被列出到終端上。但如果加上 -n 參數(shù)后，則只有經(jīng)過sed 特殊處理的那一行(或者動作)才會被列出來。
-e ：直接在命令列模式上進行 sed 的動作編輯；
-i ：直接修改讀取的文件內(nèi)容，而不是輸出到終端。

sed function

a ：新增， a 的后面可以接字串，而這些字串會在新的一行出現(xiàn)(目前的下一行)
d ：刪除，因為是刪除啊，所以 d 后面通常不接任何內(nèi)容
i ：插入， i 的后面可以接字串，而這些字串會在新的一行出現(xiàn)(目前的上一行)
p ：列印，亦即將某個選擇的數(shù)據(jù)印出。通常 p 會與參數(shù) sed -n 一起運行
s ：取代，可以直接進行取代的工作！通常這個 s 的動作可以搭配正規(guī)表示法！例如 1,20s/old/new/g

定址

可以通過定址來定位你所希望編輯的行，該地址用數(shù)字構(gòu)成，用逗號分隔的兩個行數(shù)表示以這兩行為起止的行的范圍（包括行數(shù)表示的那兩行）。如1，3表示1，2，3行，美元符號($)表示最后一行。范圍可以通過數(shù)據(jù)，正則表達式或者二者結(jié)合的方式確定。

Sed命令

調(diào)用sed命令有兩種形式：

sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)

#將 /etc/passwd 的內(nèi)容列出并且列印行號，同時，請將第 2~5 行刪除！注意一下，原本應(yīng)該是要下達 sed -e 才對，沒有 -e 也行！
nl /etc/passwd | sed '2,5d'

#要刪除第 3 到最后一行
nl /etc/passwd | sed '3,$d' 

#在第二行后(亦即是加在第三行)加上itcast
nl /etc/passwd | sed '2a itcast'

#如果是在第二行前面
nl /etc/passwd | sed '2i itcast'

#僅列出 /etc/passwd 文件內(nèi)的第 5-7 行
nl /etc/passwd | sed -n '5,7p'

#獲取當(dāng)前eth0網(wǎng)卡的IP地址
ifconfig eth0 | grep 'inet addr' | sed 's/^.*addr://g' | sed 's/Bcast.*$//g'
ifconfig eth0 | grep 'inet addr' | cut -d : -f2 | cut -d ' '  -f1
#練習(xí)
cat /etc/passwd > passwd.bak
#在第2行后面插入itcast字符
sed -i '3a itcast' passwd.bak

#刪除文件中的第2行到第5行
sed -i '2,5d' passwd.bak

#使用\來進行轉(zhuǎn)義或使用#
sed -i 's/\/bin\/bash/\/itcast/g' passwd.bak
sed -i 's#/bin/bash#/itcast#g' passwd.bak

#刪除一個文件已#開頭的行和空行
sed -i -e '/^#/d' -e '/^$/d' abc.txt

a\
在當(dāng)前行后面加入一行文本。
b lable
分支到腳本中帶有標(biāo)記的地方，如果分支不存在則分支到腳本的末尾。
c\
用新的文本改變本行的文本。
d
從模板塊（Pattern space）位置刪除行。
D
刪除模板塊的第一行。
i\
在當(dāng)前行上面插入文本。
h
拷貝模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)。
H
追加模板塊的內(nèi)容到內(nèi)存中的緩沖區(qū)
g
獲得內(nèi)存緩沖區(qū)的內(nèi)容，并替代當(dāng)前模板塊中的文本。
G
獲得內(nèi)存緩沖區(qū)的內(nèi)容，并追加到當(dāng)前模板塊文本的后面。
l
列表不能打印字符的清單。
n
讀取下一個輸入行，用下一個命令處理新的行而不是用第一個命令。
N
追加下一個輸入行到模板塊后面并在二者間嵌入一個新行，改變當(dāng)前行號碼。
p
打印模板塊的行。
P（大寫）
打印模板塊的第一行。
q
退出Sed。
r file
從file中讀行。
t label
if分支，從最后一行開始，條件一旦滿足或者T，t命令，將導(dǎo)致分支到帶有標(biāo)號的命令處，或者到腳本的末尾。
T label
錯誤分支，從最后一行開始，一旦發(fā)生錯誤或者T，t命令，將導(dǎo)致分支到帶有標(biāo)號的命令處，或者到腳本的末尾。
w file
寫并追加模板塊到file末尾。
W file
寫并追加模板塊的第一行到file末尾。
!
表示后面的命令對所有沒有被選定的行發(fā)生作用。
s/re/string
用string替換正則表達式re。
=
打印當(dāng)前行號碼。
#
把注釋擴展到下一個換行符以前。
以下的是替換標(biāo)記

g表示行內(nèi)全面替換。
p表示打印行。
w表示把行寫入一個文件。
x表示互換模板塊中的文本和緩沖區(qū)中的文本。
y表示把一個字符翻譯為另外的字符（但是不用于正則表達式）

選項

-e command, --expression=command
允許多臺編輯。
-h, --help
打印幫助，并顯示bug列表的地址。
-n, --quiet, --silent
取消默認輸出。
-f, --filer=script-file
引導(dǎo)sed腳本文件名。
-V, --version
打印版本和版權(quán)信息。

元字符集

^
錨定行的開始如：/^sed/匹配所有以sed開頭的行。
$
錨定行的結(jié)束如：/sed$/匹配所有以sed結(jié)尾的行。
.
匹配一個非換行符的字符如：/s.d/匹配s后接一個任意字符，然后是d。
*
匹配零或多個字符如：/sed/匹配所有模板是一個或多個空格后緊跟sed的行。
[]
匹配一個指定范圍內(nèi)的字符，如/[Ss]ed/匹配sed和Sed。
[^]
匹配一個不在指定范圍內(nèi)的字符，如：/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一個字母開頭，緊跟ed的行。
$..$
保存匹配的字符，如s/(love)able/\1rs，loveable被替換成lovers。
&
保存搜索字符用來替換其他字符，如s/love/&/，love這成love*。
\<
錨定單詞的開始，如:/<love/匹配包含以love開頭的單詞的行。
\>
錨定單詞的結(jié)束，如/love>/匹配包含以love結(jié)尾的單詞的行。
x\{m\}
重復(fù)字符x，m次，如：/o{5}/匹配包含5個o的行。
x\{m,\}
重復(fù)字符x,至少m次，如：/o{5,}/匹配至少有5個o的行。
x\{m,n\}
重復(fù)字符x，至少m次，不多于n次，如：/o{5,10}/匹配5--10個o的行。

實例

刪除：d命令

$ sed '2d' example
-----刪除example文件的第二行。
$ sed '2,$d' example
-----刪除example文件的第二行到末尾所有行。
$ sed '$d' example
-----刪除example文件的最后一行。
$ sed '/test/'d example
-----刪除example文件所有包含test的行。
$ sed -i '2d' example
----刪除example文件第二行，并將刪除后的結(jié)果寫入(覆蓋寫入)example文件

替換：s命令

$ sed 's/test/mytest/g' example
-----在整行范圍內(nèi)把test替換為mytest。如果沒有g(shù)標(biāo)記，則只有每行第一個匹配的test被替換成mytest。
$ sed -n 's/^test/mytest/p' example
-----(-n)選項和p標(biāo)志一起使用表示只打印那些發(fā)生替換的行。也就是說，如果某一行開頭的test被替換成mytest，就打印它。
$ sed 's/^192.168.0.1/&localhost/' example
-----&符號表示替換換字符串中被找到的部份。所有以192.168.0.1開頭的行都會被替換成它自已加 localhost，變成192.168.0.1localhost。
$ sed -n 's/$love$able/\1rs/p' example
-----love被標(biāo)記為1，所有l(wèi)oveable會被替換成lovers，而且替換的行會被打印出來。
$ sed 's#10#100#g' example
-----不論什么字符，緊跟著s命令的都被認為是新的分隔符，所以，“#”在這里是分隔符，代替了默認的“/”分隔符。表示把所有10替換成100。
選定行的范圍：逗號
$ sed -n '/test/,/check/p' example
-----所有在模板test和check所確定的范圍內(nèi)的行都被打印。
$ sed -n '5,/^test/p' example
-----打印從第五行開始到第一個包含以test開始的行之間的所有行。
$ sed '/test/,/check/s/$/sed test/' example-----對于模板test和west之間的行，每行的末尾用字符串sed test替換。

[root@hadoop shell]# cat testfile 
hello
friend
hello
world
hello
nihao
hahaha
hehehe
everybody
goodbye

[root@hadoop shell]# sed -n 's/^hello/&my/p' testfile 
hellomy
hellomy
hellomy

[root@hadoop shell]# sed 's/ha\(ha\)ha/**\1**/p' testfile   
hello
friend
hello
world
hello
nihao
**ha**
**ha**
hehehe
everybody
goodbye

[root@hadoop shell]# sed 's/\(ha\)ha\(ha\)/\1**\2/p' testfile 
hello
friend
hello
world
hello
nihao
ha**ha
ha**ha
hehehe
everybody
goodbye

多點編輯：e命令

$ sed -e '1,5d' -e 's/test/check/' example
-----(-e)選項允許在同一行里執(zhí)行多條命令。如例子所示，第一條命令刪除1至5行，第二條命令用check替換test。命令的執(zhí) 行順序?qū)Y(jié)果有影響。如果兩個命令都是替換命令，那么第一個替換命令將影響第二個替換命令的結(jié)果。
$ sed --expression='s/test/check/' --expression='/love/d' example
-----一個比-e更好的命令是--expression。它能給sed表達式賦值。

從文件讀入：r命令

$ sed '/test/r file' example
-----file里的內(nèi)容被讀進來，顯示在與test匹配的行后面，如果匹配多行，則file的內(nèi)容將顯示在所有匹配行的下面。

寫入文件：w命令

$ sed -n '/test/w file' example
-----在example中所有包含test的行都被寫入file里。

追加命令：a命令

$ sed '/^test/a\\--->this is a example' example '
----->this is a example'被追加到以test開頭的行后面，sed要求命令a后面有一個反斜杠。

插入：i命令

$ sed '/test/i\\
new line
-------------------------' example

如果test被匹配，則把反斜杠后面的文本插入到匹配行的前面。

下一個：n命令

$ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配，則移動到匹配行的下一行，替換這一行的aa，變?yōu)閎b，并打印該行，然后繼續(xù)。
變形：y命令
$ sed '1,10y/abcde/ABCDE/' example-----把1--10行內(nèi)所有abcde轉(zhuǎn)變?yōu)榇髮懀⒁猓齽t表達式元字符不能使用這個命令。

退出：q命令

$ sed '10q' example-----打印完第10行后，退出sed。
保持和獲取：h命令和G命令
$ sed -e '/test/h' -e '$G example-----在sed處理文件的時候，每一行都被保存在一個叫模式空間的臨時緩沖區(qū)中，除非行被刪除或者輸出被取消，否則所有被處理的行都將打印在屏幕上。接著模式空間被清空，并存入新的一行等待處理。在這個例子里，匹配test的行被找到后，將存入模式空間，h命令將其復(fù)制并存入一個稱為保持緩存區(qū)的特殊緩沖區(qū)內(nèi)。第二條語句的意思是，當(dāng)?shù)竭_最后一行后，G命令取出保持緩沖區(qū)的行，然后把它放回模式空間中，且追加到現(xiàn)在已經(jīng)存在于模式空間中的行的末尾。在這個例子中就是追加到最后一行。簡單來說，任何包含test的行都被復(fù)制并追加到該文件的末尾。
保持和互換：h命令和x命令
$ sed -e '/test/h' -e '/check/x' example -----互換模式空間和保持緩沖區(qū)的內(nèi)容。也就是把包含test與check的行互換。

腳本

Sed腳本是一個sed的命令清單，啟動Sed時以-f選項引導(dǎo)腳本文件名。Sed對于腳本中輸入的命令非常挑剔，在命令的末尾不能有任何空白或文本，如果在一行中有多個命令，要用分號分隔。以#開頭的行為注釋行，且不能跨行。

AWK

簡介

AWK是一種優(yōu)良的文本處理工具。其名稱得自于它的創(chuàng)始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母，AWK 提供了極其強大的功能：可以進行樣式裝入、流控制、數(shù)學(xué)運算符、進程控制語句甚至于內(nèi)置的變量和函數(shù)。它具備了一個完整的語言所應(yīng)具有的幾乎所有精美特性。實際上 AWK 的確擁有自己的語言：AWK 程序設(shè)計語言，三位創(chuàng)建者已將它正式定義為“樣式掃描和處理語言”。它允許您創(chuàng)建簡短的程序，這些程序讀取輸入文件、為數(shù)據(jù)排序、處理數(shù)據(jù)、對輸入執(zhí)行計算以及生成報表，還有無數(shù)其他的功能。
awk是一個強大的文本分析工具，相對于grep的查找，sed的編輯，awk在其對數(shù)據(jù)分析并生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分再進行各種分析處理。
awk有3個不同版本:awk、nawk和gawk，未作特別說明，一般指gawk，gawk 是 AWK 的 GNU 版本。
awk其名稱得自于它的創(chuàng)始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言： AWK 程序設(shè)計語言，三位創(chuàng)建者已將它正式定義為“樣式掃描和處理語言”。它允許您創(chuàng)建簡短的程序，這些程序讀取輸入文件、為數(shù)據(jù)排序、處理數(shù)據(jù)、對輸入執(zhí)行計算以及生成報表，還有無數(shù)其他的功能。

使用方法

awk '{pattern + action}' {filenames}

盡管操作可能會很復(fù)雜，但語法總是這樣，其中 pattern 表示 AWK 在數(shù)據(jù)中查找的內(nèi)容，而 action 是在找到匹配內(nèi)容時所執(zhí)行的一系列命令。花括號（{}）不需要在程序中始終出現(xiàn)，但它們用于根據(jù)特定的模式對一系列指令進行分組。 pattern就是要表示的正則表達式，用斜杠括起來。
awk語言的最基本功能是在文件或者字符串中基于指定規(guī)則瀏覽和抽取信息，awk抽取信息后，才能進行其他文本操作。完整的awk腳本通常用來格式化文本文件中的信息。
通常，awk是以文件的一行為處理單位的。awk每接收文件的一行，然后執(zhí)行相應(yīng)的命令，來處理文本。

調(diào)用awk

有三種方式調(diào)用awk

命令行方式
awk [-F field-separator] 'commands' input-file(s)
其中，commands 是真正awk命令，[-F域分隔符]是可選的。 input-file(s) 是待處理的文件。
在awk中，文件的每一行中，由域分隔符分開的每一項稱為一個域。通常，在不指名-F域分隔符的情況下，默認的域分隔符是空格。
shell腳本方式
將所有的awk命令插入一個文件，并使awk程序可執(zhí)行，然后awk命令解釋器作為腳本的首行，一遍通過鍵入腳本名稱來調(diào)用。
相當(dāng)于shell腳本首行的：#!/bin/sh
可以換成：#!/bin/awk
將所有的awk命令插入一個單獨文件，然后調(diào)用：
awk -f awk-script-file input-file(s)
其中，-f選項加載awk-script-file中的awk腳本，input-file(s)跟上面的是一樣的。

本章重點介紹命令行方式。

AWK命令

awk命令格式

awk 'pattern1 {action1} pattern2 {action2} ...' filename

cat /etc/passwd | awk -F ':' '{print $0}'
awk -F ':' '{print $2}' /etc/passwd

awk -F ':' '1>0 {print $1} 2>1 {print $2}' /etc/passwd

awk 'BEGIN {print "this file is /etc/passwd"} {print $0}' /etc/passwd

awk -F ':' 'BEGIN {print "this file is /etc/passwd"} {print $1}' /etc/passwd

awk '{FS=":"} {print $1}' /etc/passwd
awk 'BEGIN {FS=":"} {print $1}' /etc/passwd

awk 'END {print "end of file"} {print $1}' /etc/passwd

ifconfig eth0 | grep 'inet addr' | awk -F ":" '{print $2}' | awk '{print $1}'

入門實例

假設(shè)last -n 5的輸出如下

[root@www ~]# last -n 5 <==僅取出前五行
root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)

如果只是顯示最近登錄的5個帳號

#last -n 5 | awk  '{print $1}'
root
root
root
dmtsai
root

awk工作流程是這樣的：讀入有'\n'換行符分割的一條記錄，然后將記錄按指定的域分隔符劃分域，填充域，$0則表示所有域,$1表示第一個域,$n表示第n個域。默認域分隔符是"空白鍵" 或 "[tab]鍵",所以$1表示登錄用戶，$3表示登錄用戶ip,以此類推。

如果只是顯示/etc/passwd的賬戶

#cat /etc/passwd |awk  -F ':'  '{print $1}'  
root
daemon
bin
sys

這種是awk+action的示例，每行都會執(zhí)行action{print $1}。
??-F指定域分隔符為':'。

如果只是顯示/etc/passwd的賬戶和賬戶對應(yīng)的shell,而賬戶與shell之間以tab鍵分割

#cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}'
root    /bin/bash
daemon  /bin/sh
bin     /bin/sh
sys     /bin/sh

如果只是顯示/etc/passwd的賬戶和賬戶對應(yīng)的shell,而賬戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh

awk工作流程是這樣的：先執(zhí)行BEGING，然后讀取文件，讀入有/n換行符分割的一條記錄，然后將記錄按指定的域分隔符劃分域，填充域，$0則表示所有域,$1表示第一個域,$n表示第n個域,隨后開始執(zhí)行模式所對應(yīng)的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完，最后執(zhí)行END操作。

搜索/etc/passwd有root關(guān)鍵字的所有行

#awk -F: '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash

這種是pattern的使用示例，匹配了pattern(這里是root)的行才會執(zhí)行action(沒有指定action，默認輸出每行的內(nèi)容)。
??搜索支持正則，例如找root開頭的: awk -F: '/^root/' /etc/passwd

搜索/etc/passwd有root關(guān)鍵字的所有行，并顯示對應(yīng)的shell

# awk -F: '/root/{print $7}' /etc/passwd             
/bin/bash

這里指定了action{print $7}

awk內(nèi)置變量

awk有許多內(nèi)置變量用來設(shè)置環(huán)境信息，這些變量可以被改變，下面給出了最常用的一些變量。

ARGC 命令行參數(shù)個數(shù)
ARGV 命令行參數(shù)排列
ENVIRON 支持隊列中系統(tǒng)環(huán)境變量的使用
FILENAME awk瀏覽的文件名
FNR 瀏覽文件的記錄數(shù)
FS 設(shè)置輸入域分隔符，等價于命令行 -F選項
NF 瀏覽記錄的域的個數(shù)
NR 已讀的記錄數(shù)
OFS 輸出域分隔符
ORS 輸出記錄分隔符
RS 控制記錄分隔符

此外,$0變量是指整條記錄。$1表示當(dāng)前行的第一個域,$2表示當(dāng)前行的第二個域,......以此類推。

統(tǒng)計/etc/passwd:文件名，每行的行號，每行的列數(shù)，對應(yīng)的完整行內(nèi)容:

#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh
filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh
filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以讓代碼更加簡潔，易讀

 awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

print和printf
awk中同時提供了print和printf兩種打印輸出的函數(shù)。

其中print函數(shù)的參數(shù)可以是變量、數(shù)值或者字符串。字符串必須用雙引號引用，參數(shù)用逗號分隔。如果沒有逗號，參數(shù)就串聯(lián)在一起而無法區(qū)分。這里，逗號的作用與輸出文件的分隔符的作用是一樣的，只是后者是空格而已。

printf函數(shù)，其用法和c語言中printf基本相似,可以格式化字符串,輸出復(fù)雜時，printf更加好用，代碼更易懂。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

awk編程

變量和賦值

除了awk的內(nèi)置變量，awk還可以自定義變量。
下面統(tǒng)計/etc/passwd的賬戶人數(shù)

awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
......
user count is  40

count是自定義變量。之前的action{}里都是只有一個print,其實print只是一個語句，而action{}可以有多個語句，以;號隔開。

這里沒有初始化count，雖然默認是0，但是妥當(dāng)?shù)淖龇ㄟ€是初始化為0:

awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is  0
root:x:0:0:root:/root:/bin/bash
...
[end]user count is  40

統(tǒng)計某個文件夾下的文件占用的字節(jié)數(shù)

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is  8657198

如果以M為單位顯示:

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.25889 M

注意，統(tǒng)計不包括文件夾的子目錄。

條件語句

awk中的條件語句是從C語言中借鑒來的，見如下聲明方式：

if (expression) {
    statement;
    statement;
    ... ...
}

if (expression) {
    statement;
} else {
    statement2;
}

if (expression) {
    statement1;
} else if (expression1) {
    statement2;
} else {
    statement3;
}

統(tǒng)計某個文件夾下的文件占用的字節(jié)數(shù),過濾4096大小的文件(一般都是文件夾):

ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 
[end]size is  8.22339 M

循環(huán)語句

awk中的循環(huán)語句同樣借鑒于C語言，支持while、do/while、for、break、continue，這些關(guān)鍵字的語義和C語言中的語義完全相同。

數(shù)組
因為awk中數(shù)組的下標(biāo)可以是數(shù)字和字母，數(shù)組的下標(biāo)通常被稱為關(guān)鍵字(key)。值和關(guān)鍵字都存儲在內(nèi)部的一張針對key/value應(yīng)用hash的表格里。由于hash不是順序存儲，因此在顯示數(shù)組內(nèi)容時會發(fā)現(xiàn)，它們并不是按照你預(yù)料的順序顯示出來的。數(shù)組和變量一樣，都是在使用時自動創(chuàng)建的，awk也同樣會自動判斷其存儲的是數(shù)字還是字符串。一般而言，awk中的數(shù)組用來從記錄中收集信息，可以用于計算總和、統(tǒng)計單詞以及跟蹤模板被匹配的次數(shù)等等。

顯示/etc/passwd的賬戶

awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......

這里使用for循環(huán)遍歷數(shù)組

awk編程的內(nèi)容極多，這里只羅列簡單常用的用法，更多請參考

最后編輯于：2017.12.10 00:30:51

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

02_shell高級文本處理

02_shell高級文本處理

知識點

sort

sort語法

uniq

uniq語法

cut

cut語法

wc

wc語法

SED

Sed簡介

sed選項

sed function

定址

Sed命令

選項

元字符集

實例

刪除：d命令

替換：s命令

多點編輯：e命令

從文件讀入：r命令

寫入文件：w命令

追加命令：a命令

插入：i命令

下一個：n命令

退出：q命令

腳本

AWK

簡介

使用方法

調(diào)用awk

AWK命令

入門實例

awk內(nèi)置變量

awk編程

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

02_shell高級文本處理

知識點

sort

sort語法

uniq

uniq語法

cut

cut語法

wc

wc語法

SED

Sed簡介

sed選項

sed function

定址

Sed命令

選項

元字符集

實例

刪除：d命令

替換：s命令

多點編輯：e命令

從文件讀入：r命令

寫入文件：w命令

追加命令：a命令

插入：i命令

下一個：n命令

退出：q命令

腳本

AWK

簡介

使用方法

調(diào)用awk

AWK命令

入門實例

awk內(nèi)置變量

awk編程

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频