項目需要將日志收集起來做存儲分析,數(shù)據(jù)的流向為rsyslog(收集) -> kafka(消息隊列) -> logstash(清理) -> es、hdfs; 今天我們先將如何利用rsyslog進行日志收集到kafka。
一、環(huán)境準(zhǔn)備
通過對 rsyslog官方文檔 查看,得知 rsyslog對 kafka的支持是 v8.7.0版本后才提供的支持.通過 ChangeLog 也可以看出 V8.X的版本變化.
最新V8穩(wěn)定版已經(jīng)提供RPM包的Rsyslog-kafka插件了,直接yum安裝即可,添加yum源:
[rsyslog_v8]
name=Adiscon CentOS-$releasever - local packages for $basearch
baseurl=http://rpms.adiscon.com/v8-stable/epel-$releasever/$basearch
enabled=1
gpgcheck=0
gpgkey=http://rpms.adiscon.com/RPM-GPG-KEY-Adiscon
protect=1
添加后 yum install rsyslog rsyslog-kafka.x86_64
即可完成安裝。
二、配置
1. 處理原則
- input submit received messages to rulesets, zero or many
- ruleset contains rule, rule consist of a filter and an action list
- actions consist of the action call itself (e.g. ”:omusrmsg:”) as well as all action-defining configuration statements ($Action... directives)
2. Statement Types 表達(dá)式類型
通常利用RainerScript type statements進行非常簡潔明了的配置聲明,例如:
mail.info /var/log/mail.log
3. 流程控制
- Control structures
-
過濾條件
-
Selector: 傳統(tǒng)方式,格式如下:
<facility>[,facility...][,*].[=,!]<priority>[,priority...][,*];<facility>[,facility...][,*].[=|!]<priority>[,priority...][,*]...
其中默認(rèn)facility為auth, authpriv, cron, daemon, kern, lpr, mail, mark, news, security (same as auth), syslog, user, uucp and local0 through local7;
默認(rèn)priority為debug, info, notice, warning, warn (same as warning), err, error (same as err), crit, alert, emerg, panic (same as emerg);
2) Property-based filters: new filter type. 形式如下:
:property, [!]compare-operation, "value"
分別對應(yīng) 名字,比較符, 需要對比的字段。比較符包括 contains, isequal, startswith, regex, ereregex
3) Expression based filters:
if expr then action-part-of-selector-line
- BSD-style blocks:
- 例子:
if $syslogfacility-text == 'local0' and $msg startswith 'DEVNAME' and not ($msg contains 'error1' or $msg contains 'error0') then /var/log/somelog
-
Selector: 傳統(tǒng)方式,格式如下:
4. 數(shù)據(jù)處理:支持set, unset, reset操作
備注: Only message json (CEE/Lumberjack) properties can be modified by the set, unset andreset statements
5. input
有很多種input模塊, 我們以imfile模塊為例, 此模塊將所有的文本文件內(nèi)容逐行轉(zhuǎn)到syslog中.
input(type="imfile" tag="kafka" file="analyze.log" ruleset="imfile-kafka"[, Facility=local.7])
6. outputs
也叫作actions, 處理動作,格式如下
action (
type="omkafka"
topic="kafka_test"
broker="10.120.169.149:9092"
)
7. Rulesets and Rules
Rulesets包括多條rule,一條規(guī)則就是rsyslog處理消息的一種方式, 每個規(guī)則包含filter和actions
input(type="imfile" tag="kafka" file="analyze.log" ruleset="rulesetname")
ruleset(name="rulesetname") {
action(type="omfile" file="/path/to/file")
action(type="..." ...)
/* and so on... */
}
通過input里面的ruleset配置,將輸入流進入ruleset進行規(guī)則匹配,然后執(zhí)行action操作,完成對流的處理。
8. Queue parameters
將不同的輸入流進入不同的隊列并行處理數(shù)據(jù),通常在ruleset或者action中配置,默認(rèn)只有一個隊列。配置參數(shù)例子
action(type="omfwd" target="192.168.2.11" port="10514" protocol="tcp"
queue.filename="forwarding" queue.size="1000000" queue.type="LinkedList"
)
9. templates
這是rsyslog一個重要的特性,它可以讓用戶自定義輸入流格式,同樣也可以用于動態(tài)生成日志文件, 默認(rèn)是原始格式。
一般表達(dá)式如下:
template(parameters) { list-descriptions }
- list : 列表模板,包含name, type="list", 多個constant和property對。
template(name="tpl1" type="list") {
constant(value="Syslog MSG is: '")
property(name="msg")
constant(value="', ")
property(name="timereported" dateFormat="rfc3339" caseConversion="lower")
constant(value="\n")
}
- string: 字符串自定義格式模塊, 由name, type="string", string="<onstant text and replacement variables>", 例如
%TIMESTAMP:::date-rfc3339% %HOSTNAME%%syslogtag%%msg:::sp-if-no-1st-sp%%msg:::drop-last-lf%\n"
將每個日志字段通過自定義變量和處理方式(property replacer)得到全局能讀取的日志變量。
注意:
- 原始格式: v6之前的格式,
$template strtpl,"PRI: %pri%, MSG: %msg%\n"
。 - 利用action里的template參數(shù)將templates和action進行綁定,如
action(template=TEMPLATENAME,type="omfile" file="/var/log/all-msgs.log")
三. 實例
增加一個將nginx access日志通過rsyslog傳輸?shù)絢afka的實例,將nginx_kafka.conf放入到/etc/rsyslog.d目錄中,重啟rsyslog即可。
# 加載omkafka和imfile模塊
module(load="omkafka")
module(load="imfile")
# nginx template
template(name="nginxAccessTemplate" type="string" string="%hostname%<-+>%syslogtag%<-+>%msg%\n")
# ruleset
ruleset(name="nginx-kafka") {
#日志轉(zhuǎn)發(fā)kafka
action (
type="omkafka"
template="nginxAccessTemplate"
confParam=["compression.codec=snappy", "queue.buffering.max.messages=400000"]
partitions.number="4"
topic="test_nginx"
broker="10.120.169.149:9092"
queue.spoolDirectory="/tmp"
queue.filename="test_nginx_kafka"
queue.size="360000"
queue.maxdiskspace="2G"
queue.highwatermark="216000"
queue.discardmark="350000"
queue.type="LinkedList"
queue.dequeuebatchsize="4096"
queue.timeoutenqueue="0"
queue.maxfilesize="10M"
queue.saveonshutdown="on"
queue.workerThreads="4"
)
}
# 定義消息來源及設(shè)置相關(guān)的action
input(type="imfile" Tag="nginx,aws" File="/var/log/access.log" Ruleset="nginx-kafka")
檢查conf文件是否正確可以運行rsyslogd debug模式rsyslogd -dn
運行,看日志輸出結(jié)果,或者直接運行rsyslogd -N 1
檢查conf文件是否正確。