pandas如何操作Excel？這一篇足以帶你玩轉

Python 操作Excel操作總結,包括Series和Data Frame的互轉、使用pandas讀取Excel表格、python讀取多個數據表、python合并多個工作表以及寫入Excel文件

pandas是一款基于NumPy的數據分析工具。它提供了大量的能使我們快捷處理數據的方法。

image.png

常用數據類型

Series：一維數組，與NumPy中的一維數組相似，和Python自身的list也相似。區別自于Series中的數據只能是一種數據，而list中的數據可以不一樣
Time-Series：以時間為索引的Series
DataFrame：二維的表格型數據結構。經常用于處理Excel表格數據等，這也是我們本節課會重點講的內容
Panel：三維數組（0.25版本后，統一使用xarray，不再支持Panel）

Series和Data Frame的互轉

利用to_frame()實現Series轉DataFrame
利用squeeze()實現單列數據DataFrame轉Series

import pandas as pd
s = pd.Series(["北山啦","關注","點贊"])
s

0    北山啦
1     關注
2     點贊
dtype: object

s = s.to_frame(name="列名")
s

image.png

s.squeeze()

0    北山啦
1     關注
2     點贊
Name: 列名, dtype: object

使用pandas讀取Excel表格

在pandas中，讀取Excel非常簡單，它只有一個方法：readExcel()，但是的參數非常多

主要常用的參數，我們先對其進行了解：

io：一般指定excel文件路徑就可以了。也可以是其他Excel讀取對象如ExcelFile、xlrd.Book等
sheet_name：用于指定工作表（sheet）名稱。可以是數字（工作表從0開始的索引）
header：指定作為列名的行，默認為0，即第一行為列名。如果數據不含列名，則設為None
names：指定新的列名列表。列表中元素個數和列數必須一致
index_col：指定列為索引列，默認None指的是索引為0的第一列為索引列
usecols：要解析數據的列，可以是int或者str的列表，也可以是以逗號分隔的字符串(pandas 0.24新增功能)，例如：”A:F”，表示從A列到F列，”A,C,F”表示A、C、F三列，還可以寫成”A,C,F,K:Q”
dtype：各列的數據類型，例如：{‘a’: np.float64, ‘b’: np.int32}
converters：用于轉換各列數據的函數的字典數據，例如：{‘a’: func_1, ‘b’: func_2}

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx")
sheet.head()

image.png

我們先來看一下取回的數據的數據類型是什么。

print(type(sheet))

<class 'pandas.core.frame.DataFrame'>

可以看到，它就是我們前面提到的DataFrame數據。，直接通過它的列名稱來獲取即可，比如，要獲得所有的工資信息，可以如下：

print(sheet['工資'])

0      7653
1      8799
2      9800
3     12880
4      3600
5      3800
6      8976
7     12000
8      8900
9      7688
10     6712
11     9655
12     6854
13     8122
14     6788
15     8830
Name: 工資, dtype: int64

可以看到它的所有的數據都列出來了，并且這一列數據的數據類型是int64，即64位整型。
得到這一列數據后，我們可以對它進行處理。

for i in sheet['工資']:
    print(i)

或者將它轉換成列表后再處理：

salaries = list(sheet['工資'])
print(salaries)

[7653, 8799, 9800, 12880, 3600, 3800, 8976, 12000, 8900, 7688, 6712, 9655, 6854, 8122, 6788, 8830]

計算大家的平均工資：

sum = 0
for i in salaries:
    sum += i

print(f"總工資：{sum}")
ave = sum / len(salaries)
print(f"平均工資：{ave}")

總工資：131057
平均工資：8191.0625

我們也可以對求和的方法，使用lambda表達式（匿名函數）結合reduce()函數進行。reduce()函數會對列表、元組等可遍歷的元素依次進行運算：將第一個元素和第二個元素進行運算，并將結果和第三個元素進行運算，直到最后一個元素。

import functools
sum = functools.reduce(lambda x, y: x + y, salaries)
print(sum)

我們可以使用read_excel中的usecols參數，通過它指定我們需要讀取數據的列，它接收字符串或者整數列表格式的數據，列表中列出我們想要取出數據的列的名稱或者索引。

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", usecols=[2])
sheet

image.png

或者：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", usecols=['工資'])
sheet

image.png

如果想在讀取數據的時候，將原來的列的名字改成其他名字，則可以使用names參數指定為其他列名：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", names=['name','age','salary'])
sheet

image.png

需要注意的是，此時，我們如果要對這個DataFrame進行操作，就需要使用新的列名了。如果我們想在取出工資數據的時候，以“￥12,345”的格式顯示，則可以在獲取數據的時候，就指定轉換函數：

import pandas as pd
def formatsalary(num):
    return f"￥{format(num,',')}"

sheet = pd.read_excel(io="測試數據.xlsx", usecols=['工資'],converters={'工資':formatsalary})
sheet

image.png

上面通過converters指定了“工資”列，使用formatsalary函數來處理，所以取出來的數據就已經處理過的了。當然，我們也可以取出來后在對其進行格式化。

其他的參數，大家可以自己進行試驗。下面我們再來看一下，假設我要取出所有大于等于8000的工資，該如何進行處理呢？我們可以使用按照條件來獲取DataFrame的行數據：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", usecols=['工資'])
high_salary = sheet[sheet['工資'] >= 8000]
high_salary

image.png

如果想取得工資大于等于8000小于等于10000的數據：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx")
high_salary = sheet[(sheet['工資'] >= 8000) & (sheet['工資'] <=10000)]
high_salary

image.png

如果只想顯示符合條件的姓名和工資，則可以通過列表的方式指定要顯示的列：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx")
high_salary = sheet[(sheet['工資'] >= 8000) & (sheet['工資'] <=10000)][['姓名','工資']]
high_salary

image.png

讀取多個數據表

在上面的例子中，雖然在“測試數據.xlsx”文件中包含了兩個數據表（sheet），但它只讀取了第一個數據表的內容，如果我想把兩個數據表數據都讀取出來該怎么辦呢？可以指定sheet_name參數，它接收字符串、數字、字符串或數字列表以及None。如果指定為None，則返回所有數據表數據。默認為0，即返回第一個數據表數據。

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", sheet_name=[0, 1])
sheet

{0:            姓名  年齡     工資
 0     OLIVER.  23   7653
 1      HARRY.  45   8799
 2     GEORGE.  34   9800
 3       NOAH.  54  12880
 4       JACK.  34   3600
 5      JACOB.  32   3800
 6   MUHAMMAD.  51   8976
 7        LEO.  46  12000
 8     Harper.  42   8900
 9     Evelyn.  38   7688
 10      Ella.  33   6712
 11     Avery.  26   9655
 12  Scarlett.  37   6854
 13   Madison.  41   8122
 14      Lily.  54   6788
 15   Eleanor.  28   8830,
 1:     姓名  年齡     工資
 0   張三  39  15000
 1   李四  43  16000
 2   李雷  25   6800
 3  韓梅梅  28  23000}

可以看到，得到了兩個數據表的數據。此時要得到數據表中的數據，就需要先通過sheet[0]、sheet[1]得到第一個數據表的所有數據，再在這個數據表數據中對數據進行處理了，例如：

sheet[1]

image.png

如果用的是數據表的名字，則應該寫成sheet[‘甲公司’]。
如果我們想把這兩個數據表的數據合并到一起，可以使用pandas中的concat()函數：

import pandas as pd
sheet = pd.read_excel(io="測試數據.xlsx", sheet_name=[1, 0])
st = pd.concat(sheet,ignore_index = True)
st

image.png

這里ignore_index的意思是忽略各自的索引，統一使用新的索引。

合并多個工作表

多個EXCECL合并到一個工作表中，Python來幫你實現

# -*- coding:utf-8 -*-
# @Address:https://beishan.blog.csdn.net/
# @Author:北山啦
import pandas as pd
import os
path = r"E:\Python\00數據分析\RichardFu123\五省PM2.5\archive"
dfs,index = [],0
for i in os.listdir(path):
    dfs.append(pd.read_csv(os.path.join(path,i)))
    print(f"正在合并{index+1}工作表")
    index += 1
df = pd.concat(dfs)
df.to_csv("數據匯總.csv",index=False)

正在合并1工作表
正在合并2工作表
正在合并3工作表
正在合并4工作表
正在合并5工作表
正在合并6工作表
正在合并7工作表

寫入Excel文件

可以將DataFrame數據寫入到一個新的Excel文件中，例如，我們可以將上面合并的兩個Excel數據表數據，寫入到新的Excel文件中：

df = pd.DataFrame(st)
df.to_excel("合并工資報表.xlsx")

這里我們使用DataFrame上的to_excel()方法將數據寫入到Excel文件中。它的原型是：to_excel(self, excel_writer, sheet_name=‘Sheet1’, na_rep=’’, float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep=‘inf’, verbose=True, freeze_panes=None)，常用的參數說明：

excel_writer：需要指定一個寫入的文件，可以是字符串或者ExcelWriter對象
sheet_name：寫入的工作表名稱，是一個字符串，默認為’Sheet1’
na_rep：當沒有數據的時候，應該填入的默認值，默認為空字符串
float_format：浮點數格式，默認為None?？梢园凑說loat_format="%.2f"這樣的方式指定
columns：指定寫入的列名順序，是一個列表。
header：是否有表頭，默認為True，可以是布爾類型或者字符串列表。
index：是否加上行索引，默認為True。
index_label：索引標簽，可以是字符串或者列表，默認為None。
startrow：插入數據的起始行，默認為0。
startcol：插入數據的其實列，默認0
engine：使用的寫文件引擎，例如：‘openpyxl’ 、 ‘xlsxwriter’
當然，我們也可以不限于將一個Excel表中的數據寫入到另一個Excel文件，我們自己在程序中運行得到的數據，也可以將其組織成DataFrame后，寫入到Excel文件中。

import pandas as pd
df = pd.DataFrame({'姓名':['李雷', '韓梅梅', '小明',
                           '張三', '李四', '王五'],
                  '年齡':[31, 22, 30, 49, 38, 33]})
df.to_excel("員工表.xlsx", sheet_name="202002入職")

看看是不是寫入到文件了：

f = pd.read_excel("員工表.xlsx")
f

image.png

可以看到，確實已經寫入進去了。
那如果要寫多個數據到一個Excel文件的多個數據表（sheet）中，該怎么處理呢？此時可以使用下面的方法。

df1 = pd.DataFrame({'姓名':['李雷', '韓梅梅', '小明',
                           '張三', '李四', '王五'],
                  '年齡':[31, 22, 30, 49, 38, 33]})

df2 = pd.DataFrame({'Names': ['Andrew', 'Tomas', 'Larry',
                           'Sophie', 'Sally', 'Simone'],
                   'Age':[42, 37, 39, 35, 29, 27]})

dfs = {'國內員工':df1, '外籍員工':df2}
writer = pd.ExcelWriter('Employees.xlsx', engine='xlsxwriter')

for sheet_name in dfs.keys():
    dfs[sheet_name].to_excel(writer, sheet_name=sheet_name, index=False)

writer.save()

看看是不是已經寫入到文件了：

sheet = pd.read_excel(io="Employees.xlsx", sheet_name=None)
sheet

{'國內員工':     姓名  年齡
 0   李雷  31
 1  韓梅梅  22
 2   小明  30
 3   張三  49
 4   李四  38
 5   王五  33,
 '外籍員工':     Names  Age
 0  Andrew   42
 1   Tomas   37
 2   Larry   39
 3  Sophie   35
 4   Sally   29
 5  Simone   27}

但是仔細看的話，會發現上面的外籍員工這個數據表，字段Names和Age反了，這是因為DataFrame自動按照字母順序給我們排序了。要避免這種情況，需要在to_excel()中加上columns來指定表頭字段順序：

df1 = pd.DataFrame({'姓名':['李雷', '韓梅梅', '小明',
                           '張三', '李四', '王五'],
                  '年齡':[31, 22, 30, 49, 38, 33]})

df2 = pd.DataFrame({'Names': ['Andrew', 'Tomas', 'Larry',
                           'Sophie', 'Sally', 'Simone'],
                   'Age':[42, 37, 39, 35, 29, 27]})

dfs = {'國內員工':df1, '外籍員工':df2}
cols = {"國內員工":['姓名', '年齡'],"外籍員工":['Names','Age']}  # 指定列名順序
writer = pd.ExcelWriter('Employees.xlsx', engine='xlsxwriter')

for sheet_name in dfs.keys():
    dfs[sheet_name].to_excel(writer, sheet_name=sheet_name, index=False, columns = cols[sheet_name])

writer.save()

再來看看現在是否正確：

sheet = pd.read_excel(io="Employees.xlsx", sheet_name=None)
sheet

{'國內員工':     姓名  年齡
 0   李雷  31
 1  韓梅梅  22
 2   小明  30
 3   張三  49
 4   李四  38
 5   王五  33,
 '外籍員工':     Names  Age
 0  Andrew   42
 1   Tomas   37
 2   Larry   39
 3  Sophie   35
 4   Sally   29
 5  Simone   27}

現在沒問題了。
還可以使用前面讀寫文件的時候的with … 這種方式。
上面的方式，會覆蓋原來的文件內容。如果要在原有的Excel表中加上一個新的數據表（sheet），可以通過下面的方式：

from openpyxl import load_workbook
book = load_workbook("Employees.xlsx")  # 加載原有的數據到Workbook

df3 = pd.DataFrame({'Names': ['Judy'],
                   'Age':[27]})

with pd.ExcelWriter('Employees.xlsx',
                    engine='openpyxl') as writer:  
    writer.book = book  # 讓writer加入原來的兩個workbook
    df3.to_excel(writer, sheet_name='候補員工', index=False, columns=['Names', 'Age'])
    writer.save()

import pandas as pd
sheet = pd.read_excel(io="Employees.xlsx", sheet_name=None)
sheet

{'國內員工':     姓名  年齡
 0   李雷  31
 1  韓梅梅  22
 2   小明  30
 3   張三  49
 4   李四  38
 5   王五  33,
 '外籍員工':     Names  Age
 0  Andrew   42
 1   Tomas   37
 2   Larry   39
 3  Sophie   35
 4   Sally   29
 5  Simone   27,
 '候補員工':   Names  Age
 0  Judy   27}

可以看到，在原來的Excel文件中，已經加入了“候補員工”這個數據表。加入需要在某個數據表中加入數據（append），可以使用下面方式：

from openpyxl import load_workbook
book = load_workbook("Employees.xlsx")  # 加載原有的數據到Workbook

df4 = pd.DataFrame({'Names': ['Moore'],
                   'Age':[38]})

with pd.ExcelWriter('Employees.xlsx',
                    engine='openpyxl') as writer:  
    writer.book = book  # 讓writer加入原來的3個workbook
    writer.sheets = {ws.title: ws for ws in book.worksheets}
    start_row = writer.sheets['候補員工'].max_row
    df4.to_excel(writer, sheet_name='候補員工', index=False, columns=['Names', 'Age'], startrow=start_row,header=False)
    writer.save()

這里的要點是：使用startrow指定要插入數據的文字，這里還要注意我們是往某個已經存在的數據表插入數據，所以要指定正確的sheet_name，還有就是為了避免重復的表頭，將header設置成False。

import pandas as pd
sheet = pd.read_excel(io="Employees.xlsx", sheet_name=None)
sheet

{'國內員工':     姓名  年齡
 0   李雷  31
 1  韓梅梅  22
 2   小明  30
 3   張三  49
 4   李四  38
 5   王五  33,
 '外籍員工':     Names  Age
 0  Andrew   42
 1   Tomas   37
 2   Larry   39
 3  Sophie   35
 4   Sally   29
 5  Simone   27,
 '候補員工':    Names  Age
 0   Judy   27
 1  Moore   38}

image.png

作者：北山啦
原文鏈接：https://beishan.blog.csdn.net/article/details/115290941

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,533評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,055評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,365評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,561評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,346評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,889評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,978評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,118評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,637評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,558評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,739評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,246評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,980評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,362評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,619評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,347評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,702評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

pandas如何操作Excel？這一篇足以帶你玩轉

pandas如何操作Excel？這一篇足以帶你玩轉

常用數據類型

Series和Data Frame的互轉

使用pandas讀取Excel表格

讀取多個數據表

合并多個工作表

寫入Excel文件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

pandas如何操作Excel？這一篇足以帶你玩轉

常用數據類型

Series和Data Frame的互轉

使用pandas讀取Excel表格

讀取多個數據表

合并多個工作表

寫入Excel文件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

pandas如何操作Excel？這一篇足以帶你玩轉