獲取IP地址的地理位置

使用Python和DB-IP免費數據庫實現IP地理位置的查詢。復習一下二分查找算法。

我在工作中負責系統的日志部分,正好又對數據分析和挖掘有些興趣,所以想利用最近比較空閑的這段時間做一些日志分析方面的工作。之前沒有太多經驗,先從一些簡單的東西入手:看看用戶的地理分布情況。接入層日志中帶有請求來源的IP地址,我要做的就是提取請求IP,轉換成對應的地理位置,然后按區域統計。這里介紹一下我獲取地理位置的方法。

首先需要一個IP數據庫。谷歌之后有3個選擇:國外的DB-IP、MaxMind和國內的IPIP。其中后兩者不但提供免費的數據庫下載,還有封裝好的Python接口可以直接使用。不過什么都是拿來主義,就沒意思了。所以我決定使用DB-IP的數據庫,自己實現查找。這里使用DB-IP的城市級IP數據庫。數據庫以純文本的csv格式提供,每一行包含5列,對應一個IP地址段的起始地址、終止地址和國家、省份、城市等位置信息。下面是幾個例子:

"1.0.8.0","1.0.15.255","CN","Guangdong","Guangzhou"
"1.0.16.0","1.0.31.255","JP","Tokyo","Chiyoda"
"1.0.32.0","1.0.63.255","CN","Guangdong","Guangzhou"
"1.0.64.0","1.0.127.255","JP","Hiroshima","Hiroshima"

DB-IP的數據庫按照IP地址升序排列,因此這是個典型的有序序列查找問題,可以用二分查找來解決。首先要把文件讀進內存建立索引。IP地址其實是一個四字節(32位)的整數[1],寫成“192.168.1.1”這種形式只是為了方便人的閱讀和記憶,現在既然要讓機器來處理,不妨把它再轉換成整數。下面代碼實現了這個轉換過程。

from struct import pack, unpack

def ip2int(ip_str):
    b = map(lambda x: int(x), ip_str.split('.'))
    buf = pack('!BBBB', b[0], b[1], b[2], b[3])
    o = unpack('!I', buf)[0]
    return o

ip2int()函數的第一行將IP字符串按“.”分割成四部分,分別轉換成整數,然后放入一個list。這里使用了兩個函數式編程的小技巧,讓代碼更簡潔一些:

  1. map()函數。第一個參數是函數f,第二個參數是一個iterable對象(可以是list、tuple等),map函數將對參數2中的每一個對象調用函數f。
  2. lambda表達式。即匿名函數,lambda x表示該函數接受一個參數x,函數返回值就是“:”后面的表達式的值。

第二行將4個整數打包(pack)到一段4字節的緩沖區中,每個整數占一個字節,并以網絡序存放,第三行再以32位無符號整數(unsigned int)的形式將緩沖區解包(unpack)。這段利用了Python標準庫中的struct包提供的pack()和unpack()兩個函數,實現了將4個單字節整數合并成一個4字節整數的過程。如果用傳統的寫法,代碼可能是下面這個樣子:

o = 0
for x in b:
    o = o << 8
    o |= x
return o

load_ipdb()函數把數據庫文件讀入內存,每行記錄轉換成一個元組(tuple):(ip_start, ip_end, location),將所有元組依次追加到一個列表(list)中。由于文件本身是有序的,我們就得到了一個有序的索引。

def load_ipdb(file_path):
    ip_range_list = []
    with open(file_path) as f:
        for line in f:
            fields = line.strip().split(',')
            fields = [f[1:-1] for f in fields]
            if len(fields) != 5:
                stderr.write(line)
                continue
            ip_start, ip_end, nation, province, city = fields
            ip_start = ip2int(ip_start)
            ip_end = ip2int(ip_end)
            ip_range_list.append((ip_start, ip_end, province, city))

    return ip_range_list

接下來就可以使用二分查找算法,根據給定的IP地址,找到對應的地址段,從而確定其地理位置。

def ip_lookup(ip_range_list, ip):
    ip_bin = ip2int(ip)
    min_idx = 0
    max_idx = len(ip_range_list)
    mid = 0
    while True:
        if min_idx > max_idx:
            break
        mid = (min_idx + max_idx) / 2
        entry = ip_range_list[mid]
        if ip_bin > entry[1]:
            min_idx = mid + 1
            continue
        elif ip_bin < entry[0]:
            max_idx = mid - 1
            continue
        else:
            break
    if ip_bin >= entry[0] and ip_bin <= entry[1]:
        return entry[2]
    else:
        return None

DB-IP的數據庫包含了全球的IP地址,有630MB。而實際上我們感興趣的只是國內的部分,可以先篩選出國家代碼為CN的記錄,只需要一條grep命令,就可以大大縮短日志統計時查找地理位置的時間。最后附上一張根據統計結果繪制的熱度圖。繪圖使用的是百度ECharts??梢钥吹?,來自廣東的請求數量完爆其他省份,其次則是河南、河北、山東和江蘇這一片區域。用戶的熱度分布大致上跟各省的人口情況是相符的。

用戶熱度圖

  1. 這里只討論IPv4,IPv6地址為6個字節。 ?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,071評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,409評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,569評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,360評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,895評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,123評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,643評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,559評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,742評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,981評論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,363評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,622評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,354評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,707評論 2 370

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,593評論 25 707
  • 需要原文的可以留下郵箱我給你發,這里的文章少了很多圖,懶得網上粘啦 1數據庫基礎 1.1數據庫定義 1)數據庫(D...
    極簡純粹_閱讀 7,461評論 0 46
  • 名詞延伸 通俗的說,域名就相當于一個家庭的門牌號碼,別人通過這個號碼可以很容易的找到你。如果把IP地址比作一間房子...
    楊大蝦閱讀 20,614評論 2 56
  • 讀書真的很辛苦 必須一步一步堅持 就像明天要高考了 每次想起心里還是會后悔的 沒有盡全力考 所以哦 高考真的很重要...
    哦安妮閱讀 277評論 0 3
  • 有句話兒, 不愿告訴風, 不愿告訴雨, 只想告訴你。 可后來, 告訴了風, 告訴了雨, 還不敢告訴你。
    一片草藥解了青春的毒閱讀 341評論 18 20