基因排列

基因排列

基因排列( genecombination),基因組是指細胞或生物體的全套遺傳物質,對細菌或噬菌體、病毒而言,它們的基因組就是它單個染色體中所含的全部基因(DNA),對真核生物而言,其基因組則是其維持配子或配子體正常功能的全套染色體所含的全部基因(DNA)。基因組中有多少個基因?每一個基因在基因組中的位置如何、彼此之間的關係如何?不同生物之間同種基因或同類基因的大小、結構是否存在差別?同種生物不同個體之間的同一基因的結構、功能是否絕對固定不發生變化?這就是基因組合所要討論的基本內容。根據現在的認識,各類生物的基因組中的基因組合有其基本特徵。

特點


原核生物中基因組合的特點
原核基因組主要包括噬菌體基因組和細菌,立克次體支原體等的基因組。病毒和噬菌體的特點隨寄主不同而不同。
(一)噬菌體基因組合特點
噬菌體DNA分子是最小的,由於噬菌體依靠宿主細胞的許多功能來複制自己,它們所具有的遺傳信息比宿主細胞的要少得多。幾乎所有植物病毒和某些細菌病毒和動物病毒的基因組是由RNA組成,一般都特別小;而DNA病毒的基因組其大小範圍比較廣,最小的病毒的基因組僅有5kb左右,如單鏈DNA噬菌體174和微小病毒(parvovirus)都僅有約5kb左右,最大的有200kb左右,如T2噬菌體有182kb,豆類病毒有200kb。
1存在基因重疊現象病毒基因組一般都比較小,而編碼的蛋白質的種類又比較多,有些病毒的基因組不夠編碼它自己的蛋白質,為了解決這一矛盾,就出現了基因重疊現象,例如174要編碼9個蛋白質,而基因組僅有5kb左右,它的基因組存在A與B,C與K和D與E基因的完全重疊,其他基因有部分重疊(圖2-24),按照3個核苷酸決定一個氨基酸的理論,在DNA序列中同一個核苷酸有3種編碼ORF的可能性,即閱讀框可重疊。基因重疊有同閱讀框和異閱讀框重疊,或反向基因重疊(兩股鏈都有編碼功能)。病毒基因組也存在著基因重疊的現象,如SV40。基因的重疊現象表明生物體能高效率地利用DNA分子中的信息,把大量的信息壓縮到一個小DNA分子中,也可以解釋為何某些病毒的基因數小於它們能合成的全部蛋白質的種類數。
在高等生物中則很少有ORF重疊的現象,而存在個別DNA雙鏈分別作為2個基因的編碼序列,例如,ear-1和esr-7基因都位於17號染色體,分別從互補鏈反方向轉錄。
1基因中無內含子編碼基因是連續的,不存在如同真核編碼基因所具有的內含子結構。但感
真核細胞的病毒在許多方面同真核基因組的組織結構相類似,如基因有內含子轉錄產物需要加工,基因表達和調控都同真核細胞相類似,其調控信號,啟動子等都僅能被真核細胞所識別。
2具有操縱子結構噬菌體的宿主是細菌,其基因組的組織結構特點和細菌類似,有操縱子結
構,如174,從PD啟動子開始轉錄的mRNA包含,(E),J,F,G和H等結構基因。
3噬菌體基因組有一些是單鏈環狀DNA,如174,G4和M13,感染宿主細胞后,變成雙鏈環狀DNA,
在細菌內進行複製,雙鏈環狀DNA稱複製型。另一些噬菌體是雙鏈線狀DNA,如噬菌體,感染宿主細胞后,形成雙鏈環狀DNA。
5基因按照功能分類和表達先後順序線性排列如噬菌體,其基因組為雙鏈DNA,在噬菌體顆粒中,是線性形式,兩末端是粘性末端,感染細胞后,通過粘性末端形成環狀雙鏈。其基因的排列位置,有兩個特點:按功能分類成族排列;按表達先後順序排列。
(二)細菌基因組合特點
1基因組大小
大腸桿菌的染色體DNA比DNA約大85倍,其基因組DNA是單個雙鏈環狀DNA分子,含有大約4.7×106bp。它的線狀長度大約有1.7mm,是細菌長度的850倍,所以大腸桿菌的DNA分子具有非常緊密的結構。
2細菌基因組的組合特點
(1)功能上相關的基因串聯在一起組成操縱子結構,受同一個啟動子調控,幾個基因轉錄在同一條mRNA上,形成多順反子mRNA(polycistronmessageRNA)。順反子可以看作是基因的同義詞。如大腸桿菌的乳糖操縱子和色氨酸操縱子(圖2-26和27)。從左到右,基因的順序是CAP-cAMP結合部位,啟動子,操縱基因,SD順序及Z,Y,A結構基因。這樣的基因組合有如下幾個特點:①與乳糖代謝有關的3個酶(半乳糖苷透過酶,glactosidepermeatase,-半乳糖苷酶,-glactosidase,半乳糖苷轉乙醯基酶,glactosidetansathylase)的結構基因(Z、Y、A)串聯在一起,並轉錄成一個多順反子mRNA,但是每個順反子前都有各自的核糖體結合位點(SD序列),獨自與核糖體結合進行翻譯;②控制乳糖操縱子表達的基因直接位於結構基因的上游,包含負調控(啟動子和操縱子)和正調控(CAP-cAMP結合位點);③啟動於和操縱基因是部分重疊的。當阻遏蛋白結合於操縱子基因時,在空間上直接妨礙了RNA聚合酶的轉錄,使結構基因Z、Y、A基因不能轉錄。這樣的組織排布有利於按照內外環境變化的需要精確調控相關基因的表達,並能節約能源。
圖2-26乳糖操縱子結構
細菌合成色氨酸所必須的3個酶(5種亞基—多肽)的基因,如同乳糖代謝所必須的酶的基因一樣串聯排列組成操縱子(圖2-27),在這個操縱子的5’端有啟動子和操縱子序列外,在結構基因與啟動子和操縱子序列之間還存在編碼領頭肽(leadingpeptide)序列和衰減子(attenuator)序列,5個基因表達的正負調節。
圖2-27色氨酸操縱子結構
(2)基因中不存在內含子,即不存在不連續基因,轉錄后無需進行加工修飾,直接可以翻譯。在轉錄尚未完成前,就開始了翻譯,形成轉錄翻譯的偶聯。
(3)基因組的絕大部分都用於編碼蛋白質或rRNA和tRNA,只有小部分是非翻譯區,其中包括調控順序,核糖體結合位點。
(4)大腸桿菌基因組中一般沒有基因重疊現象,僅有極少數的基因發現有基因重疊現象。如大腸桿菌的延胡索酸還原酶-氨苄青霉素基因frd-ampC中存在基因重疊現象,frd-D基因的C端10個氨基酸的編碼序列與ampC基因的啟動子有重疊。
(5)編碼蛋白質的基因均為單拷貝基因。
(6)編碼t-RNA和rRNA的基因是多拷貝基因,惟有多拷貝才能滿足細菌合成蛋白質的需要。如圖2-28所示,16SrRNA,tRNA,23SrRNA,5SrRNA等的基因串聯排列在一起,並構成一個轉錄單位,重複7次,每個轉錄單位受同一啟動子控制,轉錄成一個RNA分子,經轉錄后加工修飾後生成成熟的rRNA和tRNA。

特徵


二真核生物基因組織特徵
對脊椎動物基因組DNA進行序列分析和其他分析的結果清楚地表明,所有脊椎動物和人類基因組中非常大的一部分,或許90-95%以上是非編碼序列,即不編碼任何mRNA前體和其他RNA,僅有10%或5%以下才是編碼序列。非編碼序列中的大部分序列,目前還沒有發現它們有什麽功能。在多細胞生物中,這種非編碼DNA中有各種不同類型的重複序列,有些重複序列的重複頻率呈現高度的多態性;有些重複序列的位置在相同種屬的不同個體間並不恆定,這種可移動的DNA片段,存在於原核和真核生物中。當它移動到基因組新的位置時,可引起突變,因此,在進化過程中可能起著重要的作用。
真核基因組序列可分成兩大類,一是非編碼序列,絕大部分為重複序列;二是編碼序列,多數是單拷貝,大約1/3為多拷貝或低重複序列。
(一)非編碼序列的特徵
真核生物基因組非常複雜,復性動力學常數C0t1/2的數值能反映基因的複雜性。當真核基因組DNA用復性動力學進行分析時,發現其復性動力學反應的C0t值的範圍常跨越8個數量級(10-4~104),從圖2-28可見真核基因組的復性過程分為三個時相,每個時相都代表基因組的一個動力學組分,每一組分都有它自己特有的復性動力學,第一時相的組分叫快復性組分,總DNA的10~25%,C0t值在10-4~10-2之間,C0t1/2值為0.0013,這一組分序列比較簡單,比較短,在基因組中重複出現最高可達幾百萬次,稱為高度重複序列。第二時相的組分叫中速復性組分,佔總DNA的25~40%,C0t值在0.2~100之間,C0t1/2值為1.9,這一組分在基因組中重複出現幾百到幾十萬次,稱中度重複序列。第三時相的組分叫慢復性組分,佔總DNA的50~60%,C0t值在100~10000之間,C0t1/2值為630,這一組分在基因組中僅出現一次或幾次,稱單一序列或單拷貝基因。
1重複序列的分類
根據重複序列的重複次數(頻率)分為三類:高度重複序列、中度重複序列和低重複序列。高度重複序列一般由非常短的序列組成,常集中在一起串聯排列,重複次數非常高。中度重複序列一般由各種序列家族組成,可能串聯排列,也可能分散存在,重複次數有很大變化,低重複序列重複次數為幾次到幾百次。
真核基因組DNA中的G:C鹼基對的分佈與細菌不同,是不均一的,約45~60%的DNA中G:C鹼基對含量較高,小部分的鹼基對含量相對較低,由於有這種鹼基組成分佈的不均一,在等密度梯度超離心分離后,出現一個主峰和一、二個小峰,這種小峰對主峰而言尤似主峰的衛星,所以稱衛星DNA,它是多種短重複序列的混合物。按照重複序列的長度將衛星DNA分成3類:衛星DNA小衛星DNA微衛星DNA
(1)高度重複序列屬衛星DNA,為快復性組分,重複序列長度在5~幾百bp,聚集在一起,串聯排列,重複次數大於100萬,總長度最長可達100mb(m為1×106),它們多存在於異染色體,近中心粒和端粒,在人群中的多態性不強。
(2)中度重複序列屬中復性組分,中度重複序列一般是分散的,主要由重複序列拷貝數很大的基因家族組成。中度重複序列的重複次數不等,在102-105之間,多的可達5×105,如Alu家族,它們的排列方向有一致的,也有相反的。
Alu家族是靈長類基因組內的特有的含量豐富的一種重複序列,長度大約300bp,在基因組中的重複頻率在5×105,占人類基因組3~6%,可被限制性內切酶AluI水解,故而得名。Alu家族分散於整個基因組的間隔順序中,多位於一些編碼基因的5’端和3’端的遠端(圖2-29),例如在、、珠蛋白基因的兩側及胰島素基因的兩側,也有的位於結構基因的內含子中。對於Alu序列的功能目前還了解不多,可能與基因轉錄的調節、hnRNA的修飾加工以及DNA複製的啟動都有關,可能與人類的疾病發生也有關。
(3)低重複序列復性速率慢,重複頻率在2-100。典型的低重複序列有兩類:
A數量可變串聯重複序列(Variablenumberoftandemrepeats,VNTR)屬小衛星DNA,重複序列長度在15~70bp,串聯排列,總長度在0.5~30kb,主要存在於常染色體,在人群中存在高度多態性。
B短串聯重複序列(ShortTandemRepeats,STR)屬微衛星DNA,重複序列的長度在2~6bp,其總長度有高度變化,存在於常染色體,也有高度多態性。這種重複序列又稱簡單串聯重複序列(simpletandemrepeats,STRs),最普通的是2,3個核苷酸殘基長的重複序列。在人群中,許多STR存在拷貝數的多態性,這種長度的多態性是由於STR在精子和卵子以及在生殖細胞減數分裂過程中發生不相等的交叉重組造成的,由於這種不相等的交叉重組,使STR的長度在每一個個體中就有差別,這是進行DNA指紋分析的基礎。
2DNA的多態性
在人類中個體間的DNA序列存在著差異性,雖然這種差異僅佔全部DNA的0.1%,但是,這個0.1%的差
異就是個體間差別的基礎。在人群中同時和經常存在兩種或兩種以上不連續的基因型,較少一種基因型出現的頻率不低於1%,就稱DNA多態性。歸納起來,可分為三種多態性。
(1)限制性內切酶片段長度多態性(RestrictionFragmentLengthPolymorphism,RFLP)由於個體DNA
上的一個點上(鹼基)的變異造成限制性核酸內切酶位點的產生或消失,用限制性核酸內切酶切割DNA時就會出現“能切”或“不能切”的兩種狀況,從而可以產生不同的DNA水解片段(即等位基因),或者在兩個酶位點之間有片段的插入或缺失,也能造成RFLP.。再用凝膠電泳分離來顯示這種片段長度的“多態性”,這種多態性稱限制性內切酶片段長度多態性。
(2)重複序列拷貝數多態性
前面提到的數量可變的串聯重複序列(VariableNumberofTandemRepeats,VNTR)和短串聯重複序列
在人群中都存在重複次數的差異----存在多態性。VNTR由15~65bp為基本單位串聯組成,串聯單位的重複次數在人群中是高度變異的多態性。
短串聯重複序列多態性(ShortTandemRepeats,STR)由1~8bp為基本單位串聯組成,串聯單位的重複
次數在人群中高度變異多態性。例如(TA)n、(CGG)n,重複次數在10~60次。
現已證明,有2個3核苷酸重複序列CCG和AGC可發生動態突變(dynamicmutation),這種突變可能引起神經系統的疾病。STR是十分複雜的,隨著基因組全序列測定的完成,會有越來越多的STR發現。
一些顯性遺傳神經疾病的致病基因攜帶者在幼年時表型正常,而在個體發育的較晚期才表現出臨床癥狀,這種情況被稱為延遲顯性。在延遲顯性遺傳病中,有時會看到早發或早現(anticipation)現象。即這類遺傳病在連續幾代后,發病年齡有提前傾向,病情也有加重趨勢。近10年來的研究顯示,這類遺傳性神經疾病共同的分子機製為DNA序列中三核昔酸重複序列的不穩定性,這種不穩定DNA序列的基本突變方式是重複序列拷貝數的改變。突變體與其上一代的突變速率不同,突變的速率與拷貝數有關,重複序列的拷貝數越多,其子代發生進一步突變的危險越大,這種突變方式被稱之為動態突變。動態突變可發生於減救分裂,也可發生於有絲分裂,減數分裂不穩定性表現為世代間拷貝數的改變,有絲分裂的不穩定性表現為同一個體不同組織或細胞系間拷貝數的不同,DNA序列的遺傳不穩定性和動態突變機制的發現,解釋了以前無法解釋的早發及不完全外顯率等現象。
迄今已發現10餘種神經疾病與三核苷酸重複序列的遺傳不穩定性有關,動態突變可發生於基因的5’非翻譯區,3’非翻譯區,內含子或外顯子。
(3)單核苷酸多態性(SingleNucleotidePolymorphism,SNP)
定義在某一人群中(某一個國家、民族、地區的人群,是一個群體)的正常個體間的基因組DNA的某些位點的單個鹼基對(核苷酸對)存在差別,有兩種或兩種以上的差別,我們可以把這位點用等位基因表示,即存在兩種或以上的等位基因,最少的一種等位基因的出現頻率不少於1%,就稱為單核苷酸多態性(SingleNucleotidePolymorphism,SNP)。基因組中單個核苷酸的缺失或插入或重複都不屬SNP。原則上,SNP可以有兩種、三種和四種多態性形式,但在人類基因組中三、四等位基因型幾乎是不存在的,所以,一般就把SNP稱為二等位基因多態性標記。
SNP的產生基因組DNA雙鏈中一條鏈上單個鹼基發生改變,另一條互補鏈上配對的鹼基同樣發生相應的改變,儘管兩條鏈都發生改變,但只能算是一個單核苷酸多態。鹼基改變有兩種方式,一種是同一類鹼基的變換,稱轉換(transition,如C-T,A-G),另一種是不同類鹼基的變換,稱顛換(Transversion,如C-A、C-G、T-A)。在人類基因組中轉換是主要的,佔2/3,其他3種加起來佔1/3。從目前已測定的SNP來看,SNP遍布整個人類基因組,根據現有數據推算,大約平均每1000個鹼基就有一個SNP,總數可達300萬個SNP。這就意味著一個個體中的每一個鹼基都有0.1%的機會發生雜合性(Heterozygosity),當然在編碼區的外顯子區域發生雜合性或多樣性(Diversity)要比非編碼區低大約4倍,大約有一半導致非同義密碼子改變。在某些特定區域SNP的密度可高達100倍,例如在非編碼的HLA區域SNP的密度有5~10%,而另一些區域僅有0.1%,兩個不同的個體的基因組之間約有幾百萬個單鹼基的差別,相當於蛋白質組中約有100000個氨基酸的差別。人與黑猩猩基因組之間的差別也只有10倍於此的差別。如此眾多的SNP必定有其重要功能。
CSNPcSNP是指出現在編碼序列區的SNP(codingSNP)。到目前為止大多數SNP的數據來自cDNA序列,僅少數SNP數據來自已測序的基因序列,編碼序列不僅限於編碼蛋白質的基因序列,還應包括為RNA(tRNA、rRNA、snRNA等)編碼的基因序列,這部分的SNP同樣可能影響各類RNA的結構和功能,從而影響細胞及整體的功能。因此,不能把cSNP簡單地看作cDNA中的SNP。在cDNA中發現的SNP可能來自基因組DNA,也可能因mRNA的編輯結果。
3DNA多態性檢測與研究具有重要的理論和實際意義。
以上所述的DNA多態性都是在漫長的進化過程中形成的,具有遺傳穩定性,可以遺傳,因此可提供大量的遺傳標記。這些遺傳標記可以用來描述一個個體遺傳結構和特徵,也可用來描述一個群體的遺傳結構和特徵。具有十分廣泛的用途;這些多態性還與基因的功能活性密切相關,嚴重影響人類個體的生命活動、健康與疾病。
(1)人類學研究中的應用:研究人類進化;研究不同群體之間、民族之間的關係;研究人類的起源,人
類的遷移(流動)等。
(2)人類疾病發生的分子遺傳機理。
(3)遺傳病的連鎖診斷,疾病的關聯分析。
(4)疾病相關基因的定位、克隆。
(5)法醫學中的個體識別和親權鑒定。
(6)環境因素易感基因的檢出和疾病易感基因的檢出:個體疾病預防,進入預防醫學的時代。
(7)藥物基因組學上的應用:新葯發明,針對個體用藥。
(二)編碼基因組織特徵
編碼基因是指可轉錄的那部分基因,其轉錄產物或是mRNA,最終翻譯成蛋白質、多肽,或是tRNA和rRNA,這部分基因僅占基因組的很小一部分,不足5%。編碼基因由兩部分組成,即結構基因和調控基因。結構基因是直接編碼蛋白質、多肽的序列,即可被轉錄成mRNA,進而翻譯成各種結構蛋白質和功能蛋白質如激素、酶等;調控基因是可調節控制結構基因表達的那部分序列。還有隻轉錄不翻譯的基因:rRNA和tRNA基因,也可算作結構基因。
1編碼蛋白質的基因結構人類或高等哺乳類動物結構基因的結構如圖2-30所示,有4個區域。
編碼區:包括編碼序列,稱外顯子(exon)和插入序列,稱內含子(Inron)。
調控區:調節結構基因轉錄表達的序列,包括啟動子、增強子、靜止子等,也稱側翼序列。
前導區:主要是編碼mRNA5’-端非翻譯區的序列,包括核糖體結合部位。
終止區:包括控制轉錄終止和編碼mRNA3’端非翻譯區的序列。
調控區前導區編碼區終止區
啟動子
轉錄起始點多聚A位點
上游增強子外顯子內含子外顯子內含子外顯子下游增強子
翻譯起始密碼翻譯終止密碼轉錄終止信號
2基因割裂現象編碼基因在基因組中多為單拷貝,也有多拷貝,人基因組大約有1/3的基因為多拷貝。這類基因絕大多數都是不連續的基因,即基因內部含有非編碼順序,把編碼序列隔離開來,稱為基因割裂現象,此類基因又稱為割裂基因(interruptedgene)。1977年Sharp首先發現這一現象,他們用提純的腺病毒2的一個外殼蛋白的mRNA與腺病毒DNA的轉錄股的限制性核酸內切酶(EcoRI)片段雜交,然後在電鏡下觀察,發現雙mRNA能完全與其雜交,但在雜交分子中有三個突出來的環狀DNA部位,這三段順序是腺病毒外殼蛋白基因中的三個插入順序。接著在SV40、珠蛋白、卵清蛋白等多種蛋白質基因中也發現此種現象。圖2-31顯示卵清蛋自基因,有8個外顯子和7個內含子。與它的mRNA進行分子雜交,在電鏡下觀察,可見到伸出雜交分子外的7個環。割裂基因的內部非編碼部分稱為內含子,編碼部分稱外顯子,不同的基因有不同的內含子和外顯子序列的數目,多的可有數十個。各個內含子或外顯子的長度也不一樣,差別很大。如vWF(vonWillebrandFactor)因子基因長約175kb,有53個外顯子(Exon)和52個內含子(Intron);DMD(DuchenneMusclarDystrophin)基因長約2400kb,有80個外顯子和79個內含子。所以真核基因明顯大於原核基因。外顯子一般比較小,通常在800bp以下,但也有多達數kb長的,如凝血VIII因子,最長的外顯子有3.1kb,ApoB基因的最長外顯子有7572bp。內含子長度變化比較大,從30bp左右到數十個kb。外顯子的序列和mRNA相同,每一個外顯子編碼蛋白質的一個功能結構域;每個內含子序列都有一些共同特徵,如5’端以GT開始,3’端以AG結束,稱為GT/AG規則,在內含子內部還有與mRNA前體加工有關的序列。割裂基因是真核生物的普遍現象,僅有少數蛋白質基因無內含子,如組蛋白基因和干擾素基因等。
3一個基因可轉錄產生二種以上mRNA在原核生物,功能或代謝上相關的一組基因,通常串聯排列,構成一個轉錄單位操縱子,產生多順反子mRNA,翻譯出多種蛋白質。和這種現象不同,大多數真核生物不存在操縱子這樣的結構,每一個基因都單獨構成一個轉錄單位,轉錄產生單順反子mRNA,僅編碼一種蛋白質。這種僅轉錄一種單順反子mRNA,翻譯出單個蛋白質的轉錄單位,稱簡單真核轉錄單位(simpleeukaryotictranscriptionunits)。雖然真核生物中不存在操縱子樣的結構,但也存在另一種轉錄單位,轉錄出的初級轉錄產物可以通過不同的拼接方式產生一種以上的蛋白質,即一段DNA序列可編碼多種mRNA或蛋白質。這種轉錄單位稱複雜轉錄單位(complexeukaryotictranscriptionunits)。如圖2-32所示,一個基因有2個啟動子,2個終止子,5個外顯子。在轉錄時,可能使用2個啟動子中的1個,也可能使用2個終止子中的1個,或使用兩種拼接方式對轉錄的初級產物進行加工,產生多種mRNA中的1種。例如大鼠肌肉的肌鈣蛋白T基因和鼠澱粉酶基因,大鼠肌肉的肌鈣蛋白T基因3’端有5個外顯子,w,x,,和z。轉錄肌鈣蛋白T的mRNA時,僅使用4個外顯子,產生兩種轉錄產物,除都使用w,x,z外,在x,z之間進行拼接時,或使用或者使用,故兩種肌鈣蛋白T的差別僅在或段的氨基酸序列(圖2-33)。鼠澱粉酶基因有2個啟動子,1個在唾液腺中有活性,另1個在肝臟中有活性,由於使用不同的啟動子,產生了不同的mRNA(圖2-34),當然產生的蛋白質也不同。一個基因一個酶,一個基因,一個蛋白質的概念,在這裡已不適用了。人類基因組測序完成後,已發現人類基因組中僅有不到40000個基因,但是,目前已發現和測序的蛋白質有17萬種以上。
4基因家族組織
大約有25~50%的真核細胞編碼蛋白質的基因是單個基因,存在於基因組中。如雞溶菌酶基因,有15kb,4個外顯子,3個內含子,在其上下游大約20kb內無任何編碼mRNA的基因存在;而其餘50~75%編碼蛋白質的基因都屬於2個或2個以上相似基因構成的基因家族。