KEGG

國際常用的生物信息資料庫之一

KEGG 是了解高級功能和生物系統(如細胞、生物和生態系統),從分子水平信息,尤其是大型分子數據集生成的基因組測序和其他高通量實驗技術的實用程序資料庫資源,由日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立。是國際最常用的生物信息資料庫之一,以“理解生物系統的高級功能和實用程序資源庫”著稱。

簡介


KEGG(京都基因與基因組百科全書)是基因組破譯方面的資料庫。在後基因時代一個重大挑戰是如何使細胞和有機體在計算機上完整的表達和演繹,讓計算機利用基因信息對更高層次和更複雜細胞活動和生物體行為作出計算推測。為達到此目的,人們建立了一個在相關知識基礎上的網路推測計算工具。在給出染色體中一套完整的基因的情況下,它可以對蛋白質交互(互動)網路在各種細胞活動起的作用作出預測。 KEGG 的PATHWAY 資料庫整合當前在分子互動網路(比如通道,聯合體)的知識,KEGG 的GENES/SSDB/KO 資料庫提供關於在基因組計劃中發現的基因和蛋白質的相關知識,KEGG 的COMPOUND/GLYCAN/REACTION資料庫提供生化複合物及反應方面的知識。

產生的背景


如何藉助計算機全面地展示細胞和生物所包含的生物學信息是后基因組時代的重大挑戰之一。科學家期望能夠根據基因組中的信息,用計算機計算或者預測出比較複雜的細胞中的通路或者生物的複雜行為。出於這個目的,日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立了生物信息學資料庫KEGG。

特點


·KEGG是一個整合了基因組、化學和系統功能信息的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。··人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。··與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。

用途


各個資料庫中包含了大量的有用信息。基因組信息存儲在GENES資料庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY資料庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個資料庫LIGAND,包含關於化學物質、酶分子、酶反應等信息。
通過與世界上其它一些大型生物信息學資料庫的連接,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。

影響及發展


KEGG建立了KEGG直系同源系統(theKEGG Orthology (KO)system),這個系統通過把分子網路的相關信息連接到基因組中,從而發展和促進了跨物種註釋流程。·結果表明,KEGG被當做一個參考知識庫,被廣泛的用於基因組測序和其他高通量實驗技術得到的大規模數據集的整合和解釋中。除了保持對基礎研究的支持,隨著KEGG分子網路的一些小變化,KEGG正在朝著更加偏向於實際應用的方向發展,這些應用主要集中在整合人類疾病、藥物和其他與健康相關的物質。

資料庫


KEGG是一個綜合資料庫,它們大致分為系統信息、基因組信息和化學信息三大類。進一步可細分為16個主要的資料庫。可以通過不同的顏色編碼來區分。
分類資料庫目錄顏色
系統信息KEGG PATHWAYKEGG通路圖
KEGG BRITEBRITE功能層次
KEGG MODULEKEGG功能單元的模塊
KEGG DISEASE人類疾病
KEGG DRUG藥物
KEGG ENVIRON天然藥物和與健康相關的物質
基因組信息KEGG ORTHOLOGYKEGG直系同源(KO)組
KEGG GENOMEKEGG中帶有完整基因組的物種
KEGG GENES在完整基因組中的基因目錄
KEGG SSDB與基因有關的序列相似性資料庫
化學信息KEGG COMPOUND代謝物及其他小分子化合物
KEGG GLYCAN多糖
KEGG REACTION生化反應
KEGG RPAIR化學反應中的反應物對
KEGG RCLASSRPAIR定義的反應級別
KEGG ENZYME酶命名法

對象標識符

資料庫中包含各種各樣的數據對象,這些數據對象是為了用來對生物系統進行計算機模擬的。因此,各個資料庫中的數據記錄都被稱為KEGG對象。這些對象可以通過KEGG對象標識符來識別,標識符由一個與資料庫相關的前綴加五個數字構成。
DatabaseObjectPrefixExample
KEGG PATHWAYPathway mapmap, ko, ec, rn, (org)hsa04930
KEGG BRITEFunctional hierarchybr, jp, ko, (org)ko01003
KEGG MODULEKEGG moduleM, (org)_MM00010
KEGG DISEASEHuman diseaseHH00004
KEGG DRUGDrugDD01441
KEGG ENVIRONCrude drug, etc.EE00048
KEGG ORTHOLOGYKO groupKK04527
KEGG GENOMEKEGG organismTT01001 (hsa)
KEGG GENESGene / proteinhsa:3643
KEGG COMPOUNDSmall moleculeCC00031
KEGG GLYCANGlycanGG00109
KEGG REACTIONReactionRR00259
KEGG RPAIRReactant pairRPRP04458
KEGG RCLASSReaction classRCRC00046
KEGG ENZYMEEnzymeec:2.7.10.1

當前資料庫中記錄

KEGG Database as of 2013/6/5 
KEGG PATHWAYPathway maps, reference (total)457(287,038)
KEGG BRITEFunctional hierarchies, reference (total)146 (100,112)
KEGG MODULEKEGG modules, reference (total)592 (219,684)
KEGG DISEASEHuman diseases1,359
KEGG DRUGDrugs10,084
KEGG ENVIRONCrude drugs and health-related substances849
KEGG ORTHOLOGYKEGG Orthology (KO) groups17,661
KEGG GENOMEKEGG Organisms2,998
KEGG GENES
Genes in high-quality genomes
(190 eukaryotes, 2336 bacteria, 153 archaea)
12,462,216
KEGG SSDB
Best hit relations within GENES
Bi-directional best hit relations within GENES
181,088,147,758
3,841,515,171
KEGG DGENESGenes in draft genomes (20 eukaryotes)514,175
KEGG EGENESGenes as EST contigs (99 eukaryotes)3,792,883
KEGG MGENESGenes in metagenomes (716 samples)90,754,418
KEGG COMPOUNDMetabolites and other small molecules17,187
KEGG GLYCANGlycans10,985
KEGG REACTIONBiochemical reactions9,545
KEGG RPAIRReactant pair chemical transformations14,500
KEGG RCLASSReaction class2,879
KEGG ENZYMEEnzyme nomenclature6,214

PATHWAY Database


KEGG PATHWAY 資料庫是一個手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應網路:
2.遺傳信息加工
3.環境信息加工
4.細胞過程
5.生物體系統
6.人類疾病
7.藥物開發

五種類型

僅僅第一種參考通路(reference pathway)圖是手動畫出來的,其他的通路圖都是通過計算產生的。pathway中的每一個框(或線)都對應一個或多個K編號、EC編號及R編號。
·map -Reference pathway
對於代謝相關的通路,在referencepathway中,一個點同時表示一個基因、這個基因編碼的酶及這個酶參加的反應
·ko -Reference pathway (KO)
ko通路中的點只表示基因
·ec -Reference pathway (EC)
ec通路中的點只表示相關的酶
·rn -Reference pathway (Reaction)
Reaction通路中的點只表示該點參與的某個反應、反應物對及反應類型
·org- Organism-specific pathway map
對於所有的代謝和非代謝通路,K編號都被認為是基因的標識符,這個標識符在每一個物種中對應該物種中的某個基因,從而得到物種特異性的pathway。
KEGG
KEGG
KEGG ORTHOLOGY (KO) Database
KEGG參考通路圖,BRITE功能層次以及KEGG模塊都是以一種廣泛的方式來表示,都可以用於所有物種。而KEGG直系同源系統(KO System)是這一表示方式的基礎。包含手動定義的直系同源組,這些直系同源組就相當於KEGG通路中的點,BRITE層級中的點以及KEGG模塊中的點。(這些點並不是某個具體物種的某一個基因,而是在許多物種中都存在的直系同源的某一個基因)。一旦基因被分配了KO標識或K編號,通過基因組註釋流程,物種特異性的通路圖、BRITE功能層次和KEGG模塊就可以自動產生了。

直系同源旁系同源

l直系同源(orthology)是比較基因組學中最重要的定義。直系同源的定義是:
(1).在進化上起源於一個始祖基因並垂直傳遞的同源基因
(2).分佈於兩種或兩種以上物種的基因組;
(3).功能高度保守乃至於近乎相同,甚至於其在近緣物種可以相互替換;
(4).結構相似;
(5).組織特異性與亞細胞分佈相似。
l旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中,由於始祖基因的加倍而橫向產生的幾個同源基因。直系與旁系的共性是同源,都源於各自的始祖基因。其區別在於:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能並不相似(儘管結構上具一定程度的相似),甚至於沒有功能(如基因家族中的假基因)。
ko編號表示一個通路,這個通路是不分物種的,相當於所有物種的這一通路的並集。
eg:ko04722
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統稱。