基因組註釋

基因組註釋

基因組註釋(Genome annotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量註釋,是當前功能基因組學研究的一個熱點。

概念


圖1 基因組重疊連續群測試序列註釋結果
圖1 基因組重疊連續群測試序列註釋結果
基因組註釋的研究內容包括基因識別和基因功能註釋兩個方面。基因識別的核心是確定全 基因組序列中所有基因的確切位置。從基因組序列預測新基因,現階段主要是3 種方法的結合: (1) 分析mRNA 和EST數據以直接得到結果; (2) 通過相似性比對從已知基因和蛋白質序列得到間接證據 ; (3) 基於各種統計模型和演演算法從頭預測。對預測出的基因進行高通量功能註釋可以藉助於以下方法,利用已知功能基因的註釋信息為新基因註釋: (1) 序列資料庫相似性搜索; (2) 序列模體(Motif) 搜索; (3) 直系同源序列聚類分析(Cluster of orthologousgroup ,COG) 。隨著微生物全基因組序列測定速率的加快,開發有Web 介面的高效、綜合基因組註釋系統十分必要。近年來,國際上已有一些這樣的工具,如基於Java 的微生物基因組資料庫介面。儘管JMGD 提供了一個很好的圖形化介面程序,卻並不具有基因組自動註釋功能。德國國家環境和健康研究中心開發的蛋白質摘錄、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因組分析系統,整合了大量基因組功能信息和結構信息。PEDANT 註釋功能強大 ,適用範圍廣,但沒有便於操作的圖形界面,而且需要較強的硬體系統支持。目前,微生物基因組全序列測定通常由中小實驗室獨立完成,有必要開發和集成基於PCPLinux 系統並以免費資料庫管理系統、免費軟體和公共資料庫資源為主的基因組信息註釋系統。

系統方法


本系統基於PC 微機,操作系統為Linux。測試系統為PIII 550 雙CPU 微機,內存1GB ,運行RedHat 710 Linux 系統。資料庫管理系統使用MySQL ,Web 伺服器程序使用Apache ,應用程序介面用Perl 腳本語言編寫。本系統也可在單CPU 微機上運行,內存不小於512MB。所有系統軟體和應用軟體均可以從Internet 網上免費獲得。
112 測試數據
本系統用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續群(Contig) 作測試數據,共3 03247bp 。
113 MGAP 的基因組註釋系統
基因組註釋系統是MGAP 的核心,整合了許多常用的基因識別和蛋白質功能預測軟體,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個資料庫,如非冗餘蛋白質序列資料庫(Non redundant , NR) 、已知三維空間結構的蛋白質序列資料庫(PDBSeq) 、國際蛋白質資源信息系統( InterPro) 和直系同源蛋白質家族資料庫(Cluster of orthologousgroups ,COG) 等,編寫了相應的模塊進行自動操作,並把每一步註釋結果導入資料庫中。MGAP 整合的一般模塊,可以被其他任何一種微生物基因組直接使用。不同實驗室可根據實際研究需要,增加相應模塊或數據,如藍細菌Anabaena sp. strain PCC 7120 的蛋白質序列庫等。
基因識別是MGAP 的第一步,本系統採用微生物基因組基因識別最為權威的Gene2Marks 軟體進行基因預測,通過http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 網站提交重疊連續群測試序列(3 03247bp) ,使用GeneMarks 預設參數,預測得到279 個基因。
然後用MGAP 的數據載入模塊(Loaddata) 將預測結果導入ORF 表中。
114 MGAP 的用戶介面
用戶介面用於展示註釋結果,提供易於操作和分析平台。本系統用戶介面基於Web設計開發,用戶可通過瀏覽器訪問基因組註釋系統,包括基因組環狀圖展示、基因和ORF在染色體上分布圖,並對註釋信息進行檢索。基因組環狀基因分布圖構建基於如下信息:預測所得基因的起始位置、長度,編碼基因的正負鏈信息,以及預測的基因功能分類。
2 結果
圖1 是MGAP 系統對PCC7002 基因組重疊連續群測試序列註釋結果。A 為基因展示圖,B 為ORF 顯示頁面。A 中由外向內依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統計; (4) GC 偏離量統計。該系統構建的環狀基因組,可顯示正負鏈上的編碼基因,用相應顏色表示功能類別。本系統沿用經典蛋白質功能分類方法 ,即把微生物基因組所有基因按功能分為16 大類,進而細分為113 個子類。此外,還增加了統計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時以200bp 為滑動窗口,計算GC 偏離量時以13kb 為滑動窗口。GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) 。點擊A圖中環狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁面。點擊圖中某個ORF ,即可調出其所有註釋信息,包括該ORF 在基因組中的位置、長度、正負鏈信息、核酸和蛋白序列,以及對NR 蛋白庫、COG資料庫、InterPro 、PDBseq 資料庫的搜索結果。所有結果都有相對應的連接可以直接連到原始資料庫。
3 討論
新基因組功能註釋是基因組研究的重要方面,MGAP 把註釋所用軟體和公共資料庫進行有機集成,使註釋過程自動進行並把結果存儲到資料庫系統中,最終提供友好的界面,可為中小實驗室提供方便實用的微生物基因組註釋系統,減少人工參與,提高註釋效率。該系統考慮到國內一般中小實驗室的實際情況,基於廉價的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟體系統開發。
必須指出,目前所有計算機註釋信息,均不能保證完全準確。MGAP 在一定程度上依賴於現有資料庫中的註釋信息。由於各種原因,這些註釋信息必然有一些錯誤。顯然,這些錯誤信息將不可避免地引入新的註釋系統。為此,MGAP 綜合了多種註釋方法,並互為補充。例如,一個ORF 既有BLASTP從NR 資料庫搜索到的相似序列,又在InterPro 蛋白質模體庫中找到相應功能位點,也可找到高分匹配的COGs ,那麼該註釋結果就比較可靠。此外,必要的人工註釋,可以避免或糾正自動註釋的錯誤。例如,由於測序錯誤產生的讀碼框移位或是缺失,會導致一個基因被拆分成兩段,這種錯誤目前只能由手工糾正。基因組註釋是一個複雜、繁瑣的過程,需要大量的生物學知識。詳盡、準確的註釋需要經過嚴格的生物學實驗才能獲得。本系統對測試序列的註釋結果仍有許多未知功能基因,需不斷擴充新數據而逐步更新。MGAP 的新版本將增加互動式用戶註釋模塊,進一步擴充和增強該系統註釋功能。