生信log36|如何處理超大的文件：以處理VCF文件為例附python解決方法和策略

以前自學機器學習的時候經常遇到一些，10幾個G甚至更大的數據集，自己的電腦的存儲不太夠，就沒有做那些數據集了。直到最近因分析需求需要清洗100G+的數據，才真正接觸到真正意義上的大數據，過程中發現腳本跑得慢已經是次要問題，因文件太大了導致內存過多，以至于處理的過程中被系統Ctrl + C，看了一圈也問了大模型，總結了下面這些注意點。PS:下面說的“超量”指處理超過內存大小的文件。

以處理VCF文件為例

此處的VCF來自gnomad數據庫，有興趣可以去下載，要從大文件中提取想要的數據并整理成結構化的數據并非容易的事。
VCF（variant calling format）是一種記錄變異信息的tsv文件，包含了注釋行，表頭，數據；
VCF的數據結構如下所示：

圖源自NCBI

1、如何“超量”讀寫文件內容

文件讀取：逐行讀取文件到內存中，而不是一次性把文件都讀到內存里面，使用迭代器yield去讀取和生成數據，而不是通過return的方法將數據一次性返回，這樣可以逐行讀取和生成數據而不是一次性把所有數據都讀到內存里面。
讀取文件：python有一個內置模塊csv，用recorder（迭代器）的方式可以將數據逐行讀入

import csv
with open("test.vcf", "r") as f:
    record = csv.reader(f, delimiter="\t")
    for info in record:
        print(info)

生成數據：

# 生成
def extract_data(超大文件):
    XXX #提取的步驟
    yield data

文件寫入：處理后的數據通過使用重定向的方法，將結果輸出到stdout中（淺顯理解就是把結果直接輸出到屏幕中）而不是在python中用with open的方式在腳本中打開寫入的文件。隨著數據的寫入，with open打開的文件會越來越大，最終導致腳本被中斷Aborted。

#法一
import sys
sys.stdout.write(data)
# 法二
print(data)

2、如何“超量”地處理大數據

超量處理數據

目標：為了更快地處理數據
策略：MapReduce請記住這個策略

MapReduce簡介

MapReduce的策略就是先把數據集切割成小塊，每個小塊用一樣的方式處理，最后合并的思想。
分塊處理的方式能夠避免過多數據一次性讀進內存里面而導致的程序崩潰，每個小塊還可以通過多線程/多進程/分布式的方式分發給不同的線程/進程/機器一起處理數據，實現同時處理同一個文件從而提高處理的效率。下面記錄python和linux命令行實現MapReduce的方法

Python實現Map Reduce

最直接的例子就是pandas的分塊功能與多進程聯用的例子

import pandas

#可以先事先定義一個處理df的函數
def clean_df(df):
    do_anything df
    return df
merge_data = pd.Dataframe()
for chunk in df:
    tmp_df = clean_df(chunk)
    merge_data = pd.concat([tmp_df, merge_data] )

linux實現MapReduce

工具：split、parrellel、cat、qsub（有超算資源的可以選擇集群投遞的方式將小文件投到計算節點計算）
思路：split分割大文件，parallel并行處理

split -n l/10 bigfile smallfile
# 分布式處理文件
# 法一
parallel -j 4 "cat {} | tr ' ' '\n' | sort | uniq -c" ::: smallfile*
# 法二
ls script.sh |xargs -I {} qsub -cwd -l vf=4g -pe smp 1 {}
# 合并文件
cat smallfile* | sort | uniq -c > result.txt

3、如何提高處理大數據的效率

使用隱式循環和列表推導式替代顯式循環

顯式循環和隱式循環的區別在于處理的值是否會在內存中保留
顯式循環的例子

a = [1,2,3]
for i in a:
  print(a+1)

#列表推導式

a = [i + 1 for i in a]

使用內置函數
盡量使用python內置函數，numpy等等因為這些函數的底層語言是C，以下提供一些常用的內置函數供大家參考。

len()函數：用于獲取字符串、列表、元組、字典等對象的長度。

# 獲取字符串長度
string = "Hello, world!"
length = len(string)

# 獲取列表長度
list = [1, 2, 3, 4, 5]
length = len(list)

# 獲取元組長度
tuple = (1, 2, 3, 4, 5)
length = len(tuple)

# 獲取字典長度
dictionary = {'name': 'John', 'age': 30}
length = len(dictionary)

sorted()函數：用于對列表、元組等對象進行排序。

# 對列表進行排序
list = [3, 1, 4, 2, 5]
sorted_list = sorted(list)

# 對元組進行排序
tuple = (3, 1, 4, 2, 5)
sorted_tuple = sorted(tuple)

# 對字典進行排序
dictionary = {'name': 'John', 'age': 30}
sorted_dictionary = sorted(dictionary.items())

max()函數和min()函數：用于獲取列表、元組等對象中的最大值和最小值。

# 獲取列表中的最大值和最小值
list = [3, 1, 4, 2, 5]
max_value = max(list)
min_value = min(list)

# 獲取元組中的最大值和最小值
tuple = (3, 1, 4, 2, 5)
max_value = max(tuple)
min_value = min(tuple)

sum()函數：用于計算列表、元組等對象中所有元素的和。

# 計算列表中所有元素的和
list = [1, 2, 3, 4, 5]
sum = sum(list)

# 計算元組中所有元素的和
tuple = (1, 2, 3, 4, 5)
sum = sum(tuple)

filter()函數：用于過濾列表、元組等對象中的元素。

# 過濾列表中的偶數
list = [1, 2, 3, 4, 5]
even_numbers = list(filter(lambda x: x % 2 == 0, list))

# 過濾元組中的奇數
tuple = (1, 2, 3, 4, 5)
odd_numbers = tuple(filter(lambda x: x % 2 != 0, tuple))

map()函數：用于對列表、元組等對象中的每個元素應用一個函數，并返回一個新的列表。這個函數可以減少for循環這樣的操作

# 對列表中的每個元素進行平方運算
list = [1, 2, 3, 4, 5]
squared_list = list(map(lambda x: x**2, list))

# 對元組中的每個元素進行加1運算
tuple = (1, 2, 3, 4, 5)
incremented_tuple = tuple(map(lambda x: x+1, tuple))

reduce()函數：用于對列表、元組等對象中的元素進行累積計算，并返回一個結果。

# 對列表中的元素進行累加運算
from functools import reduce
list = [1, 2, 3, 4, 5]
sum = reduce(lambda x, y: x+y, list)

# 對元組中的元素進行累乘運算
tuple = (1, 2, 3, 4, 5)
product = reduce(lambda x, y: x*y, tuple)

zip()函數：用于將多個列表、元組等對象中的元素按照索引進行配對，并返回一個新的元組列表。根據兩個列表生成字典數據的時候非常實用

# 將兩個列表中的元素按照索引進行配對
list1 = [1, 2, 3, 4, 5]
list2 = ['a', 'b', 'c', 'd', 'e']
zipped_list = list(zip(list1, list2))

# 將兩個元組中的元素按照索引進行配對
tuple1 = (1, 2, 3, 4, 5)
tuple2 = ('a', 'b', 'c', 'd', 'e')
zipped_tuple = list(zip(tuple1, tuple2))

enumerate()函數：用于將列表、元組等對象中的元素和它們的索引配對，并返回一個新的元組列表。遍歷列表時enumerate(list)的性能優于range(len(list))，且可以一次性返回列表的索引和值。

# 將列表中的元素和它們的索引進行配對
list = ['a', 'b', 'c', 'd', 'e']
enumerated_list = list(enumerate(list))

# 將元組中的元素和它們的索引進行配對
tuple = ('a', 'b', 'c', 'd', 'e')
enumerated_tuple = list(enumerate(tuple))

any()函數和all()函數：用于判斷列表、元組等對象中的元素是否滿足某個條件。

# 判斷列表中是否存在偶數
list = [1, 2, 3, 4, 5]
has_even_number = any(map(lambda x: x % 2 == 0, list))

# 判斷元組中是否所有元素都是奇數
tuple = (1, 3, 5, 7, 9)
all_odd_numbers = all(map(lambda x: x % 2 != 0, tuple))

使用Cython寫的第三方工具包

c語言但python版本，python的性能限制也是由于語言本身的特性所導致的，因此將python轉變為高性能語言會大大地提升腳本的性能。如使用cyvcf2解析器， numba加速器均可提高腳本的性能。（重點有限，這兩個包會另開日志分享）

總結

本日志記錄了處理超大size文件的思路和具體做法。我一直思考入了生信分析的門之后，會寫腳本之后呢？怎么提升？what's next？在遇到性能瓶頸后從各個細節修改自己的代碼后，查看書本發現，提升性能是在腳本各個細節處實現的。在意腳本性能是一個契機，將學到的新東西慢慢融入進自己的工作流中，時間一長自然會發現自己的進步了。

另：感興趣的話點個贊再走，接下來會繼續梳理和分享感興趣的點。

參考
《python》
VCF格式
 cyvcf2

最后編輯于：2023.06.06 10:35:34

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

生信log36|如何處理超大的文件：以處理VCF文件為例附python解決方法和策略

生信log36|如何處理超大的文件：以處理VCF文件為例附python解決方法和策略

以處理VCF文件為例

1、如何“超量”讀寫文件內容

2、如何“超量”地處理大數據

MapReduce簡介

Python實現Map Reduce

linux實現MapReduce

3、如何提高處理大數據的效率

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

生信log36|如何處理超大的文件：以處理VCF文件為例附python解決方法和策略

以處理VCF文件為例

1、如何“超量”讀寫文件內容

2、如何“超量”地處理大數據

MapReduce簡介

Python實現Map Reduce

linux實現MapReduce

3、如何提高處理大數據的效率

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频