參考文獻:
http://www.bbioo.com/experiment/24-117079-1.html
http://blog.shenwei.me/local-blast-installation/
Blast,全稱Basic Local Alignment Search Tool,即"基于局部比對算法的搜索工具"
Blast能夠實現比較兩段核酸或者蛋白序列之間的同源性的功能,它能夠快速的找到兩段序列之間的同源序列并對比對區域進行打分以確定同源性的高低。
Blast的運行方式是先用目標序列建數據庫(這種數據庫稱為database,里面的每一條序列稱為subject),然后用待查的序列(稱為query)在database中搜索,每一條query與database中的每一條subject都要進行雙序列比對,從而得出全部比對結果。
Blast是一個集成的程序包,通過調用不同的比對模塊,blast實現了五種可能的序列比對方式:
blastp:蛋白序列與蛋白庫做比對,直接比對蛋白序列的同源性。
blastx:核酸序列對蛋白庫的比對,先將核酸序列翻譯成蛋白序列(根據相位可以翻譯為6種可能的蛋白序列),然后再與蛋白庫做比對。
blastn:核酸序列對核酸庫的比對,直接比較核酸序列的同源性。
tblastn:蛋白序列對核酸庫的比對,將庫中的核酸翻譯成蛋白序列,然后進行比對。
tblastx:核酸序列對核酸庫在蛋白級別的比對,將庫和待查序列都翻譯成蛋白序列,然后對蛋白序列進行比對。
理清楚兩個概念
相似性:
是指一種很直接的數量關系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80%,或者4/5。這是個量化的關系。當然可進行自身局部比較
同源性:
指從一些數據中推斷出的兩個基因或蛋白質序列具而共同祖先的結論,屬于質的判斷。就是說A和B的關系上,只有是同源序列,或者非同源序列兩種關系。而說A和B的同源性為80%都是不科學的
序列的相似性和序列的同源性有一定的關系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經常可以通過序列的相似性來推測序列是否同源。
正因為存在這樣的關系,很多時候對序列的相似性和同源性就沒有做很明顯的區分,造成經常等價混用兩個名詞。所以有出現A序列和B序列的同源性為80%一說。