多序列比對
多序列比對
"雙序列比對是序列分析的基礎.然而
多序列比對有時用來區分一組序列之間的差異,但其主要用於描述一組序列之間的相似性關係,以便對一個基因家族的特徵有一個簡明扼要的了解。與雙序列比對一樣,多序列比對的方法建立在某個數學或生物學模型之上.
因此,正如我們不能對雙序列比對的結果得出"正確或錯誤"的簡單結論一樣,多序列比對的結果也沒有絕對正確和絕對錯誤之分,而只能認為所使用的模型在多大程度上反映了序列之間的相似性關係以及它們的生物學特徵.
目前,構建多序列比對模型的方法大體可以分為兩大類.
第一類
第二類
差別
這兩種方法所得結果可能有很大差別。一般說來,很難斷定哪種方法所得結果一定正確,應該說,它們從不同角度反映蛋白質序列中所包含的生物學信息.
基於序列信息和基於結構信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因為這兩種方法都不能完全反映蛋白質分子所攜帶的全部信息.
蛋白質序列是經過DNA序列轉錄翻譯得到的。從資訊理論的角度看,它應該與DNA分子所攜帶的信息更為"接近".而蛋白質結構除了序列本身帶來的信息外,還包括經過翻譯后加工修飾所增加的結構信息,包括殘基的修飾,分子間的相互作用等,最終形成穩定的天然蛋白質結構。因此,這也是對完全基於序列數據比對方法批評的主要原因.
多序列比對一般通過3個步驟完成:
(1)兩兩進行雙重比對。
(2)生成一系統樹圖(dendrogram),將序列按相似性大致地分組。
(3)使用系統樹圖作為引導,產生出最終的多序列比對結果。