CpG島

分佈於人類基因中的雙核苷酸

CpG雙核苷酸在人類基因組中的分佈很不均一,而在基因組的某些區段,CpG保持或高於正常概率。CpG島主要位於基因的啟動子(promotor)和外顯子區域,是富含CpG二核苷酸的一些區域,長度為300—3000bp。這裡CpG是胞嘧啶(C)—磷酸(p)—鳥嘌呤(G)的縮寫。

概述


CpG島(CpG island):CpG雙核苷酸在人類基因組中的分佈很不均一,而在基因組的某些區段,CpG保持或高於正常概率。CpG島主要位於基因的啟動子(promotor)和第一外顯子區域,約有60%以上基因的啟動子含有CpG島。CpG島的GC含量大於50%,長度超過200bp。

存在形式


在哺乳動物中CpG以兩種形式存在:一種是分散於DNA序列中;另一種呈現高度聚集狀態,人們稱之為CpG島(CpG island)。在正常組織里,70%~90%散在的CpG是被甲基修飾的,而與之相反,大小為100-1000bp左右且富含CpG二核苷酸的CpG島,則往往非甲基化的(註:定位於失活X染色體上的基因、印跡基因和非表達的組織特異基因外的CpG島是被甲基化修飾的)。CpG島常位於基因轉錄調控區附近,與56%的人類基因組編碼基因相關,因此基因轉錄區CpG島的甲基化狀態的研究就顯得十分重要。人類基因組序列草圖分析結果表明,人類基因組CpG島約為28890個,大部分染色體每1Mb就有5-15個CpG島,平均值為每Mb含10.5個CpG島,CpG島的數目與基因密度有良好的對應關係。

活動區域


CpG島經常出現在真核生物的編碼基因的調控區,在其它地方出現時會由於CpG中的C易被甲基化而形成5'-甲基胞嘧啶,脫氨基后形成胸腺嘧啶,由於T本身就會存在於DNA中,因此不易被修復,所以被淘汰。故CpG在基因組中是以島的形式分佈的。
CpG島,其中G在DNA鏈中緊隨C后。在許多基因的啟動子(promotor)或“起始”區域周圍,甲基化經常被抑制。這些區域包含濃度相對較高的CpG對,與此段區域對應的染色體區段一起被稱作CpG島,其長度通常在幾百到幾千核苷酸的長度內變化。

意義


許多基因,尤其是管家基因的啟動子區,其中通常存在一些富含雙核苷酸“CG”的區域,稱為“CpG島”(CpG island)。研究鹼基G和C在整個基因組內的含量和分佈有十分重要的意義。例如在人類基因組內,GC的含量大約為40%;這些GC並不是平均分佈在基因組內,在某些DNA片段上其含量可高達60%以上,而在另一些區域則只有33%左右。這種GC含量的差別,在基因表達的調控和基因突變上都可能扮演著重要的角色。在人類基因組內,存在有近3萬個CpG島;在大多數染色體上,平均每100萬鹼基含有5~15個CpG島,其中有1.8萬多個CpG島片段的GC含量為60%~70%。通常,這些CpG島不僅是基因的一種標誌,而且還參與基因表達的調控和影響染色質的結構。例如,除定位於失活X染色體上的基因、印跡基因和非表達的組織特異基因(奢侈基因)外,正常細胞的CpG島由於被保護而處於非甲基化狀態。
全基因組低甲基化,維持甲基化模式酶的調節失控和正常非甲基化CpG島的高甲基化是人類腫瘤中普遍存在的現象.。以往的研究證明啟動子區的高甲基化導致抑癌基因失活是人類腫瘤所具有的共同特徵之一,而且這種高甲基化是導致抑癌基因失活的又一個機制。
另外,原核生物細菌DNA含有高頻率的CpG雙核苷,約為1/16,細菌DNA和某些含非甲基化CpG雙核苷的多聚核甘酸能夠刺激鼠和人淋巴細胞高等脊椎動物出現CpG雙核苷頻率為1/50,且多為甲基化,真核細胞和甲基化的多聚核甘酸則不能刺激鼠和人淋巴細胞。CpG結構與細菌DNA同源性要高於脊椎動物細胞。CpG DNA可直接刺激B細胞巨噬細胞和DCs細胞分泌細胞因子。特別是TH1樣細胞因子如IL-12和 IL-18;細胞表達協同刺激因子分子,顯示增強抗原遞呈作用。CpG DNA可誘導強烈的TH1樣應答提示這些分子可作為疫苗的佐劑,抵抗各種目標,包括感染性物質腫瘤抗原過敏原等。