作為一個網站的管理員,web日志有很多信息值得去關注,但每天去查看海量的日志效率很低,于是寫了個腳本來統計web日志,結合排程就可以每天定時發送到指定郵箱,方便管理員更直觀的了解網站情況。
腳本統計了:
1、總訪問量
2、總帶寬
3、獨立訪客量
4、訪問IP統計
5、訪問url統計
6、來源頁面統計
7、404統計
8、搜索引擎蜘蛛統計(谷歌,百度,搜狗)
9、搜索引擎來源統計(谷歌,谷歌HK,百度)
腳本中需要修改的變量:log_path、domain、email
#!/bin/bash
# @Date : 2017-05-17
# @Author : yangfannie
# @Name : aoto_web_log.sh --Automatic statistics website access log
log_path=/www/logs/yangfannie.com.log
domain="yangfannie.com"
email="admin@yangfannie.com"
maketime=`date +%Y-%m-%d" "%H":"%M`
logdate=`date -d "yesterday" +%Y-%m-%d`
total_visit=`wc -l ${log_path} | awk '{print $1}'`
total_bandwidth=`awk -v total=0 '{total+=$10}END{print total/1024/1024}' ${log_path}`
total_unique=`awk '{ip[$1]++}END{print asort(ip)}' ${log_path}`
ip_pv=`awk '{ip[$1]++}END{for (k in ip){print ip[k],k}}' ${log_path} | sort -rn | head -20`
url_num=`awk '{url[$7]++}END{for (k in url){print url[k],k}}' ${log_path} | sort -rn | head -20`
referer=`awk -v domain=$domain '$11 !~ /http:\/\/[^/]*'"$domain"'/{url[$11]++}END{for (k in url){print url[k],k}}' ${log_path} | sort -rn | head -20`
notfound=`awk '$9 == 404 {url[$7]++}END{for (k in url){print url[k],k}}' ${log_path} | sort -rn | head -20`
spider=`awk -F'"' '$6 ~ /Baiduspider/ {spider["baiduspider"]++} $6 ~ /Googlebot/ {spider["googlebot"]++} $6 ~ /Sogou web spider/ {spider["sogouspider"]++}END{for (k in spider){print k,spider[k]}}' ${log_path}`
search=`awk -F'"' '$4 ~ /https:\/\/www\.baidu\.com/ {search["baidu_search"]++} $4 ~ /https:\/\/www\.google\.com\.hk/ {search["googlehk_search"]++} $4 ~ /https:\/\/www\.google\.com/ {search["google_search"]++}END{for (k in search){print k,search[k]}}' ${log_path}`
echo -e "概況\n報告生成時間:${maketime}\n總訪問量:${total_visit}\n總帶寬:${total_bandwidth}M\n獨立訪客:${total_unique}\n\n訪問IP統計\n${ip_pv}\n\n訪問url統計\n${url_num}\n\n來源頁面統計\n${referer}\n\n404統計\n${notfound}\n\n蜘蛛統計\n${spider}\n\n搜索引擎來源統計\n${search}" | mail -s "$domain $logdate log statistics" ${email}