獲取IP地址的地理位置

使用Python和DB-IP免費數據庫實現IP地理位置的查詢。復習一下二分查找算法。

我在工作中負責系統的日志部分，正好又對數據分析和挖掘有些興趣，所以想利用最近比較空閑的這段時間做一些日志分析方面的工作。之前沒有太多經驗，先從一些簡單的東西入手：看看用戶的地理分布情況。接入層日志中帶有請求來源的IP地址，我要做的就是提取請求IP，轉換成對應的地理位置，然后按區域統計。這里介紹一下我獲取地理位置的方法。

首先需要一個IP數據庫。谷歌之后有3個選擇：國外的DB-IP、MaxMind和國內的IPIP。其中后兩者不但提供免費的數據庫下載，還有封裝好的Python接口可以直接使用。不過什么都是拿來主義，就沒意思了。所以我決定使用DB-IP的數據庫，自己實現查找。這里使用DB-IP的城市級IP數據庫。數據庫以純文本的csv格式提供，每一行包含5列，對應一個IP地址段的起始地址、終止地址和國家、省份、城市等位置信息。下面是幾個例子：

"1.0.8.0","1.0.15.255","CN","Guangdong","Guangzhou"
"1.0.16.0","1.0.31.255","JP","Tokyo","Chiyoda"
"1.0.32.0","1.0.63.255","CN","Guangdong","Guangzhou"
"1.0.64.0","1.0.127.255","JP","Hiroshima","Hiroshima"

DB-IP的數據庫按照IP地址升序排列，因此這是個典型的有序序列查找問題，可以用二分查找來解決。首先要把文件讀進內存建立索引。IP地址其實是一個四字節（32位）的整數^[1]，寫成“192.168.1.1”這種形式只是為了方便人的閱讀和記憶，現在既然要讓機器來處理，不妨把它再轉換成整數。下面代碼實現了這個轉換過程。

from struct import pack, unpack

def ip2int(ip_str):
    b = map(lambda x: int(x), ip_str.split('.'))
    buf = pack('!BBBB', b[0], b[1], b[2], b[3])
    o = unpack('!I', buf)[0]
    return o

ip2int()函數的第一行將IP字符串按“.”分割成四部分，分別轉換成整數，然后放入一個list。這里使用了兩個函數式編程的小技巧，讓代碼更簡潔一些：

map()函數。第一個參數是函數f，第二個參數是一個iterable對象（可以是list、tuple等），map函數將對參數2中的每一個對象調用函數f。
lambda表達式。即匿名函數，lambda x表示該函數接受一個參數x，函數返回值就是“:”后面的表達式的值。

第二行將4個整數打包（pack）到一段4字節的緩沖區中，每個整數占一個字節，并以網絡序存放，第三行再以32位無符號整數（unsigned int）的形式將緩沖區解包（unpack）。這段利用了Python標準庫中的struct包提供的pack()和unpack()兩個函數，實現了將4個單字節整數合并成一個4字節整數的過程。如果用傳統的寫法，代碼可能是下面這個樣子：

o = 0
for x in b:
    o = o << 8
    o |= x
return o

load_ipdb()函數把數據庫文件讀入內存，每行記錄轉換成一個元組（tuple）：(ip_start, ip_end, location)，將所有元組依次追加到一個列表（list）中。由于文件本身是有序的，我們就得到了一個有序的索引。

def load_ipdb(file_path):
    ip_range_list = []
    with open(file_path) as f:
        for line in f:
            fields = line.strip().split(',')
            fields = [f[1:-1] for f in fields]
            if len(fields) != 5:
                stderr.write(line)
                continue
            ip_start, ip_end, nation, province, city = fields
            ip_start = ip2int(ip_start)
            ip_end = ip2int(ip_end)
            ip_range_list.append((ip_start, ip_end, province, city))

    return ip_range_list

接下來就可以使用二分查找算法，根據給定的IP地址，找到對應的地址段，從而確定其地理位置。

def ip_lookup(ip_range_list, ip):
    ip_bin = ip2int(ip)
    min_idx = 0
    max_idx = len(ip_range_list)
    mid = 0
    while True:
        if min_idx > max_idx:
            break
        mid = (min_idx + max_idx) / 2
        entry = ip_range_list[mid]
        if ip_bin > entry[1]:
            min_idx = mid + 1
            continue
        elif ip_bin < entry[0]:
            max_idx = mid - 1
            continue
        else:
            break
    if ip_bin >= entry[0] and ip_bin <= entry[1]:
        return entry[2]
    else:
        return None

DB-IP的數據庫包含了全球的IP地址，有630MB。而實際上我們感興趣的只是國內的部分，可以先篩選出國家代碼為CN的記錄，只需要一條grep命令，就可以大大縮短日志統計時查找地理位置的時間。最后附上一張根據統計結果繪制的熱度圖。繪圖使用的是百度ECharts?？梢钥吹?，來自廣東的請求數量完爆其他省份，其次則是河南、河北、山東和江蘇這一片區域。用戶的熱度分布大致上跟各省的人口情況是相符的。

用戶熱度圖

這里只討論IPv4，IPv6地址為6個字節。 ?

最后編輯于：2017.12.05 07:16:18

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,572評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,071評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,409評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,569評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,360評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,895評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,979評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,123評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,643評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,559評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,742評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,250評論 5贊 356
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,981評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,363評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,622評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,354評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,707評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

獲取IP地址的地理位置

獲取IP地址的地理位置

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

獲取IP地址的地理位置

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频