最后一次更新日期: 2019/3/17
pandas
是基于numpy
的數據分析庫,提供一些更易用的數據模型和大量高效的統計方法。
使用前先導入模塊:
import pandas as pd
按需導入以下模塊:
import numpy as np
import matplotlib.pyplot as plt
1. 隨機排序
In [24]: df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
In [25]: df.iloc[np.random.permutation(df.shape[0])]
Out[25]:
a b
1 2 5
0 1 4
2 3 6
In [27]: df.sample(frac=1.)
Out[27]:
a b
0 1 4
2 3 6
1 2 5
隨機排序,用于打亂數據集。一種方法是通過numpy生成亂序索引,然后應用在pandas的iloc
索引方法上;另一種方法是使用pandas的抽樣方法sample
,設置抽樣比例frac
參數為1.,采用默認的不放回抽樣的方式,也可以達到同樣的效果。
2. 抽樣
In [34]: df.sample(n=2)
Out[34]:
a b
1 2 5
2 3 6
In [36]: df.sample(frac=0.8,replace=True)
Out[36]:
a b
1 2 5
1 2 5
sample
方法用于抽樣,第一個參數n
設置抽樣數量,第二個參數frac
設置抽樣比例,第三個參數replace
設置是否放回,默認False
,第四個參數weight
可設置樣本權重,第五個參數random_state
設置隨機數種子。