基因組註釋

基因組註釋(Genome annotation) 是利用生物信息學方法和工具，對基因組所有基因的生物學功能進行高通量註釋，是當前功能基因組學研究的一個熱點。

概念

圖1 基因組重疊連續群測試序列註釋結果

基因組註釋的研究內容包括基因識別和基因功能註釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預測新基因，現階段主要是3 種方法的結合: (1) 分析mRNA 和EST數據以直接得到結果; (2) 通過相似性比對從已知基因和蛋白質序列得到間接證據 ; (3) 基於各種統計模型和演演算法從頭預測。對預測出的基因進行高通量功能註釋可以藉助於以下方法，利用已知功能基因的註釋信息為新基因註釋: (1) 序列資料庫相似性搜索; (2) 序列模體(Motif) 搜索; (3) 直系同源序列聚類分析(Cluster of orthologousgroup ,COG) 。隨著微生物全基因組序列測定速率的加快，開發有Web 介面的高效、綜合基因組註釋系統十分必要。近年來，國際上已有一些這樣的工具，如基於Java 的微生物基因組資料庫介面。儘管JMGD 提供了一個很好的圖形化介面程序，卻並不具有基因組自動註釋功能。德國國家環境和健康研究中心開發的蛋白質摘錄、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因組分析系統，整合了大量基因組功能信息和結構信息。PEDANT 註釋功能強大 ,適用範圍廣，但沒有便於操作的圖形界面，而且需要較強的硬體系統支持。目前，微生物基因組全序列測定通常由中小實驗室獨立完成，有必要開發和集成基於PCPLinux 系統並以免費資料庫管理系統、免費軟體和公共資料庫資源為主的基因組信息註釋系統。

系統方法

111 開發環境

本系統基於PC 微機，操作系統為Linux。測試系統為PIII 550 雙CPU 微機，內存1GB ,運行RedHat 710 Linux 系統。資料庫管理系統使用MySQL ,Web 伺服器程序使用Apache ,應用程序介面用Perl 腳本語言編寫。本系統也可在單CPU 微機上運行，內存不小於512MB。所有系統軟體和應用軟體均可以從Internet 網上免費獲得。

112 測試數據

本系統用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續群(Contig) 作測試數據，共3 03247bp 。

113 MGAP 的基因組註釋系統

基因組註釋系統是MGAP 的核心，整合了許多常用的基因識別和蛋白質功能預測軟體，包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等，以及多個資料庫，如非冗餘蛋白質序列資料庫(Non redundant , NR) 、已知三維空間結構的蛋白質序列資料庫(PDBSeq) 、國際蛋白質資源信息系統( InterPro) 和直系同源蛋白質家族資料庫(Cluster of orthologousgroups ,COG) 等，編寫了相應的模塊進行自動操作，並把每一步註釋結果導入資料庫中。MGAP 整合的一般模塊，可以被其他任何一種微生物基因組直接使用。不同實驗室可根據實際研究需要，增加相應模塊或數據，如藍細菌Anabaena sp. strain PCC 7120 的蛋白質序列庫等。

基因識別是MGAP 的第一步，本系統採用微生物基因組基因識別最為權威的Gene2Marks 軟體進行基因預測，通過http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 網站提交重疊連續群測試序列(3 03247bp) ,使用GeneMarks 預設參數，預測得到279 個基因。

然後用MGAP 的數據載入模塊(Loaddata) 將預測結果導入ORF 表中。

114 MGAP 的用戶介面

用戶介面用於展示註釋結果，提供易於操作和分析平台。本系統用戶介面基於Web設計開發，用戶可通過瀏覽器訪問基因組註釋系統，包括基因組環狀圖展示、基因和ORF在染色體上分布圖，並對註釋信息進行檢索。基因組環狀基因分布圖構建基於如下信息：預測所得基因的起始位置、長度，編碼基因的正負鏈信息，以及預測的基因功能分類。

2 結果

圖1 是MGAP 系統對PCC7002 基因組重疊連續群測試序列註釋結果。A 為基因展示圖,B 為ORF 顯示頁面。A 中由外向內依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統計; (4) GC 偏離量統計。該系統構建的環狀基因組，可顯示正負鏈上的編碼基因，用相應顏色表示功能類別。本系統沿用經典蛋白質功能分類方法 ,即把微生物基因組所有基因按功能分為16 大類，進而細分為113 個子類。此外，還增加了統計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時以200bp 為滑動窗口，計算GC 偏離量時以13kb 為滑動窗口。GC 偏離量表示G和C 含量的差別，定義為: (G2C)P(G+ C) 。點擊A圖中環狀基因組展示圖，則可得到B 圖基因組局部ORF 顯示頁面。點擊圖中某個ORF ,即可調出其所有註釋信息，包括該ORF 在基因組中的位置、長度、正負鏈信息、核酸和蛋白序列，以及對NR 蛋白庫、COG資料庫、InterPro 、PDBseq 資料庫的搜索結果。所有結果都有相對應的連接可以直接連到原始資料庫。

3 討論

新基因組功能註釋是基因組研究的重要方面,MGAP 把註釋所用軟體和公共資料庫進行有機集成，使註釋過程自動進行並把結果存儲到資料庫系統中，最終提供友好的界面，可為中小實驗室提供方便實用的微生物基因組註釋系統，減少人工參與，提高註釋效率。該系統考慮到國內一般中小實驗室的實際情況，基於廉價的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟體系統開發。

必須指出，目前所有計算機註釋信息，均不能保證完全準確。MGAP 在一定程度上依賴於現有資料庫中的註釋信息。由於各種原因，這些註釋信息必然有一些錯誤。顯然，這些錯誤信息將不可避免地引入新的註釋系統。為此,MGAP 綜合了多種註釋方法，並互為補充。例如，一個ORF 既有BLASTP從NR 資料庫搜索到的相似序列，又在InterPro 蛋白質模體庫中找到相應功能位點，也可找到高分匹配的COGs ,那麼該註釋結果就比較可靠。此外，必要的人工註釋，可以避免或糾正自動註釋的錯誤。例如，由於測序錯誤產生的讀碼框移位或是缺失，會導致一個基因被拆分成兩段，這種錯誤目前只能由手工糾正。基因組註釋是一個複雜、繁瑣的過程，需要大量的生物學知識。詳盡、準確的註釋需要經過嚴格的生物學實驗才能獲得。本系統對測試序列的註釋結果仍有許多未知功能基因，需不斷擴充新數據而逐步更新。MGAP 的新版本將增加互動式用戶註釋模塊，進一步擴充和增強該系統註釋功能。

基因組註釋

基因組註釋

概念

系統方法

基本信息