公日日躁我和公乱,我被外国黑人3p过程,少妇与公狍做了一夜

什么是 pandas

pandas 是一個(gè) Python 包，它提供了快速、靈活和豐富的數(shù)據(jù)結(jié)構(gòu)，可以簡單又直觀地處理“關(guān)系”和“標(biāo)簽”數(shù)據(jù)，是 Python 中做數(shù)據(jù)分析的重要模塊。詳見 pandas 官方文檔

DataFrame

pandas 有兩個(gè)非常重要的數(shù)據(jù)結(jié)構(gòu) Series 和 DataFrame。Series 是序列，多行單列，DataFrame 多行多列。先看一個(gè)圖表

圖片來自[這里](http://chrisalbon.com/python/pandas_missing_data.html)

上圖是 pandas.DataFrame 輸出樣式。最左列是索引列，默認(rèn)為自增的數(shù)字序列。第一行是列名，NaN表示空，無數(shù)據(jù)。當(dāng)導(dǎo)入數(shù)據(jù)，或者做數(shù)據(jù)框合并時(shí)，若出現(xiàn)空數(shù)據(jù)， pandas 會自動將此項(xiàng)設(shè)置為 NaN。

如何使用 pandas

我們現(xiàn)在有一個(gè)需求，分析電話號碼的合法性。以下例子圍繞這個(gè)展開。

導(dǎo)入 csv 格式文件。

import pandas as pd
df = pd.read_csv('phone.csv', encoding='utf8')

根據(jù)某列生成其他列，可如下實(shí)現(xiàn)。

import phonenumbers

def valid_phone_number(phones):
    vphones = []
    status = []
    # vphone = None
    for phone in phones:
        try:
            p=phonenumbers.parse(phone,'CN')
            vphones.append(str(p.national_number))
            status.append(phonenumbers.is_valid_number(p))
        except Exception, e:
            vphones.append(np.NaN)
            status.append(np.NaN)
            print e

    return [vphones, status]
    
result = valid_phone_number(df['phone'])
df['format'] = result[0]
df['status'] = result[1]
print df

結(jié)果：

              phone        format status
0     +862110100000    2110100000   True
1     ?059122663000   59122663000   True
2     ? 15822203333   15822203333   True
3     0254000211111  254000211111  False
4     +862082688688    2082688688   True
5  1795111111120009   11111120009  False
6    0451811$012599           NaN    NaN

在列上應(yīng)用函數(shù)

def valid_phone_number(phone):
    vp = None
    
    try:
        p = phonenumbers.parse(phone,'CN')
        if phonenumbers.is_valid_number(p):
            vp = [str(p.national_number), True]
        else:
            vp = [str(p.national_number), False]
    except Exception, e:
        print e

    return vp
    
df['phone_status'] = df['phone'].apply(valid_phone_number)

輸出結(jié)果

              phone           phone_status
0     +862110100000     [2110100000, True]
1     ?059122663000    [59122663000, True]
2     ? 15822203333    [15822203333, True]
3     0254000211111  [254000211111, False]
4     +862082688688     [2082688688, True]
5  1795111111120009   [11111120009, False]
6    0451811$012599                   None

拆 list 列

tags = df['phone_status'].apply(pd.Series)
tags = tags.rename(columns = lambda x : 'format' if x == 0 else 'status')
dfs = pd.concat([df['phone'], tags[:]], axis=1)

# 排序輸出
print dfs.sort_values(by='status', ascending=0)

結(jié)果：

              phone        format status
0     +862110100000    2110100000   True
1     ?059122663000   59122663000   True
2     ? 15822203333   15822203333   True
4     +862082688688    2082688688   True
3     0254000211111  254000211111  False
5  1795111111120009   11111120009  False
6    0451811$012599           NaN    NaN

統(tǒng)計(jì)：

print pd.value_counts(df['status'], sort=False)

結(jié)果

False    2
True     4
Name: status, dtype: int64

輸出結(jié)果到文件 excel／csv， index=False表示不包含索引列，即上面的最左列

# csv
df.to_csv('phones.csv', encoding='utf8', index=False)
# excel
df.to_excel('phones.xlsx', sheet_name='Sheet1', index=False)

結(jié)果如下圖：

輸出的 excel 表格

在列上應(yīng)用函數(shù)修改值，去掉所有值的前后空格：

stripstr = lambda x: x.strip() if isinstance(x, unicode) else x
# 在所有列上修改
df = df.applymap(stripstr)

如果只對某列進(jìn)行修改：

# 在phone列修改
df['phone'] = df['phone'].apply(stripstr)

刪除重復(fù)行

df.drop_duplicates()

刪除列

# axis=1 表示列
df.drop('phone_status', axis=1)
# 刪除索引值為1的行
df.drop(1)

空數(shù)據(jù)的處理：

# 空（NaN）值填0
df["phone"].fillna(0)
#刪除所有列都為 NaN 的行
df.dropna(how='all')
#刪除含 NaN 的行
df.dropna()

參考
10 Minutes to pandas
Data Science for Political and Social Phenomena #Python
python-phonenumbers

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

使用 Python pandas 包進(jìn)行數(shù)據(jù)清洗小結(jié)

使用 Python pandas 包進(jìn)行數(shù)據(jù)清洗小結(jié)

什么是 pandas

DataFrame

如何使用 pandas

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

使用 Python pandas 包進(jìn)行數(shù)據(jù)清洗小結(jié)

什么是 pandas

DataFrame

如何使用 pandas

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频