以前自學機器學習的時候經常遇到一些,10幾個G甚至更大的數據集,自己的電腦的存儲不太夠,就沒有做那些數據集了。直到最近因分析需求需要清洗100G+的數據,才真正接觸到真正意義上的大數據,過程中發現腳本跑得慢已經是次要問題,因文件太大了導致內存過多,以至于處理的過程中被系統Ctrl + C,看了一圈也問了大模型,總結了下面這些注意點。PS:下面說的“超量”指處理超過內存大小的文件。
以處理VCF文件為例
- 此處的VCF來自gnomad數據庫,有興趣可以去下載,要從大文件中提取想要的數據并整理成結構化的數據并非容易的事。
- VCF(variant calling format)是一種記錄變異信息的
tsv文件
,包含了注釋行
,表頭
,數據
; -
VCF的數據結構如下所示:
圖源自NCBI
1、如何“超量”讀寫文件內容
文件讀取:逐行讀取文件到內存中,而不是一次性把文件都讀到內存里面,使用迭代器
yield
去讀取和生成數據,而不是通過return
的方法將數據一次性返回,這樣可以逐行讀取和生成數據而不是一次性把所有數據都讀到內存里面。讀取文件:python有一個內置模塊
csv
,用recorder(迭代器)的方式可以將數據逐行讀入
import csv
with open("test.vcf", "r") as f:
record = csv.reader(f, delimiter="\t")
for info in record:
print(info)
- 生成數據:
# 生成
def extract_data(超大文件):
XXX #提取的步驟
yield data
- 文件寫入:處理后的數據通過使用重定向的方法,將結果輸出到stdout中(淺顯理解就是把結果直接輸出到屏幕中)而不是在python中用
with open
的方式在腳本中打開寫入的文件。隨著數據的寫入,with open
打開的文件會越來越大
,最終導致腳本被中斷Aborted
。
#法一
import sys
sys.stdout.write(data)
# 法二
print(data)
2、如何“超量”地處理大數據
超量處理數據
- 目標:為了更快地處理數據
- 策略:
MapReduce
請記住這個策略
MapReduce簡介
- MapReduce的策略就是先把數據集切割成小塊,每個小塊用一樣的方式處理,最后合并的思想。
- 分塊處理的方式能夠避免過多數據一次性讀進內存里面而導致的程序崩潰,每個小塊還可以通過多線程/多進程/分布式的方式分發給不同的線程/進程/機器一起處理數據,實現同時處理同一個文件從而提高處理的效率。下面記錄python和linux命令行實現MapReduce的方法
Python實現Map Reduce
- 最直接的例子就是pandas的分塊功能與多進程聯用的例子
import pandas
#可以先事先定義一個處理df的函數
def clean_df(df):
do_anything df
return df
merge_data = pd.Dataframe()
for chunk in df:
tmp_df = clean_df(chunk)
merge_data = pd.concat([tmp_df, merge_data] )
linux實現MapReduce
- 工具:split、parrellel、cat、qsub(有超算資源的可以選擇集群投遞的方式將小文件投到計算節點計算)
- 思路:split分割大文件,parallel并行處理
split -n l/10 bigfile smallfile
# 分布式處理文件
# 法一
parallel -j 4 "cat {} | tr ' ' '\n' | sort | uniq -c" ::: smallfile*
# 法二
ls script.sh |xargs -I {} qsub -cwd -l vf=4g -pe smp 1 {}
# 合并文件
cat smallfile* | sort | uniq -c > result.txt
3、如何提高處理大數據的效率
使用隱式循環和列表推導式替代顯式循環
- 顯式循環和隱式循環的區別在于處理的值是否會在內存中保留
- 顯式循環的例子
a = [1,2,3]
for i in a:
print(a+1)
#列表推導式
a = [i + 1 for i in a]
使用內置函數
盡量使用python內置函數,numpy等等因為這些函數的底層語言是C,以下提供一些常用的內置函數供大家參考。
- len()函數:用于獲取字符串、列表、元組、字典等對象的長度。
# 獲取字符串長度
string = "Hello, world!"
length = len(string)
# 獲取列表長度
list = [1, 2, 3, 4, 5]
length = len(list)
# 獲取元組長度
tuple = (1, 2, 3, 4, 5)
length = len(tuple)
# 獲取字典長度
dictionary = {'name': 'John', 'age': 30}
length = len(dictionary)
sorted()函數:用于對列表、元組等對象進行排序。
# 對列表進行排序
list = [3, 1, 4, 2, 5]
sorted_list = sorted(list)
# 對元組進行排序
tuple = (3, 1, 4, 2, 5)
sorted_tuple = sorted(tuple)
# 對字典進行排序
dictionary = {'name': 'John', 'age': 30}
sorted_dictionary = sorted(dictionary.items())
- max()函數和min()函數:用于獲取列表、元組等對象中的最大值和最小值。
# 獲取列表中的最大值和最小值
list = [3, 1, 4, 2, 5]
max_value = max(list)
min_value = min(list)
# 獲取元組中的最大值和最小值
tuple = (3, 1, 4, 2, 5)
max_value = max(tuple)
min_value = min(tuple)
- sum()函數:用于計算列表、元組等對象中所有元素的和。
# 計算列表中所有元素的和
list = [1, 2, 3, 4, 5]
sum = sum(list)
# 計算元組中所有元素的和
tuple = (1, 2, 3, 4, 5)
sum = sum(tuple)
- filter()函數:用于過濾列表、元組等對象中的元素。
# 過濾列表中的偶數
list = [1, 2, 3, 4, 5]
even_numbers = list(filter(lambda x: x % 2 == 0, list))
# 過濾元組中的奇數
tuple = (1, 2, 3, 4, 5)
odd_numbers = tuple(filter(lambda x: x % 2 != 0, tuple))
- map()函數:用于對列表、元組等對象中的每個元素應用一個函數,并返回一個新的列表。這個函數可以減少
for循環這樣的操作
# 對列表中的每個元素進行平方運算
list = [1, 2, 3, 4, 5]
squared_list = list(map(lambda x: x**2, list))
# 對元組中的每個元素進行加1運算
tuple = (1, 2, 3, 4, 5)
incremented_tuple = tuple(map(lambda x: x+1, tuple))
- reduce()函數:用于對列表、元組等對象中的元素進行累積計算,并返回一個結果。
# 對列表中的元素進行累加運算
from functools import reduce
list = [1, 2, 3, 4, 5]
sum = reduce(lambda x, y: x+y, list)
# 對元組中的元素進行累乘運算
tuple = (1, 2, 3, 4, 5)
product = reduce(lambda x, y: x*y, tuple)
- zip()函數:用于將多個列表、元組等對象中的元素按照索引進行配對,并返回一個新的元組列表。根據兩個列表生成字典數據的時候非常實用
# 將兩個列表中的元素按照索引進行配對
list1 = [1, 2, 3, 4, 5]
list2 = ['a', 'b', 'c', 'd', 'e']
zipped_list = list(zip(list1, list2))
# 將兩個元組中的元素按照索引進行配對
tuple1 = (1, 2, 3, 4, 5)
tuple2 = ('a', 'b', 'c', 'd', 'e')
zipped_tuple = list(zip(tuple1, tuple2))
- enumerate()函數:用于將列表、元組等對象中的元素和它們的索引配對,并返回一個新的元組列表。 遍歷列表時
enumerate(list)
的性能優于range(len(list))
,且可以一次性返回列表的索引和值。
# 將列表中的元素和它們的索引進行配對
list = ['a', 'b', 'c', 'd', 'e']
enumerated_list = list(enumerate(list))
# 將元組中的元素和它們的索引進行配對
tuple = ('a', 'b', 'c', 'd', 'e')
enumerated_tuple = list(enumerate(tuple))
- any()函數和all()函數:用于判斷列表、元組等對象中的元素是否滿足某個條件。
# 判斷列表中是否存在偶數
list = [1, 2, 3, 4, 5]
has_even_number = any(map(lambda x: x % 2 == 0, list))
# 判斷元組中是否所有元素都是奇數
tuple = (1, 3, 5, 7, 9)
all_odd_numbers = all(map(lambda x: x % 2 != 0, tuple))
使用Cython寫的第三方工具包
- c語言但python版本,python的性能限制也是由于語言本身的特性所導致的,因此將python轉變為高性能語言會大大地提升腳本的性能。如使用
cyvcf2
解析器,numba
加速器均可提高腳本的性能。(重點有限,這兩個包會另開日志分享)
總結
- 本日志記錄了處理超大size文件的思路和具體做法。我一直思考入了生信分析的門之后,會寫腳本之后呢?怎么提升?what's next?在遇到性能瓶頸后從各個細節修改自己的代碼后,查看書本發現,提升性能是在腳本各個細節處實現的。在意腳本性能是一個契機,將學到的新東西慢慢融入進自己的工作流中,時間一長自然會發現自己的進步了。
另:感興趣的話點個贊再走,接下來會繼續梳理和分享感興趣的點。