人類基因組計劃
人類基因組計劃
人類基因組計劃(human genome project, HGP)是由美國科學家於1985年率先提出,於1990年正式啟動的。美國、英國、法國、德國、日本和我國科學家共同參與了這一預算達30億美元的人類基因組計劃。按照這個計劃的設想,在2005年,要把人體內約2.5萬個基因的密碼全部解開,同時繪製出人類基因的圖譜。換句話說,就是要揭開組成人體2.5萬個基因的30億個鹼基對的秘密。人類基因組計劃與曼哈頓原子彈計劃和阿波羅計劃並稱為三大科學計劃。被譽為生命科學的“登月計劃”。
人類基因組計劃(英語:Human Genome Project, HGP)是一項規模宏大,跨國跨學科的科學探索工程。其宗旨在於測定組成人類染色體(指單倍體)中所包含的30億個鹼基對組成的核苷酸序列,從而繪製人類基因組圖譜,並且辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的。基因組計劃是人類為了探索自身的奧秘所邁出的重要一步,是繼曼哈頓計劃和阿波羅登月計劃之後,人類科學史上的又一個偉大工程。截止到2003年4月14日,人類基因組計劃的測序工作已經完成。其中,2001年人類基因組工作草圖的發表(由公共基金資助的國際人類基因組計劃和私人企業塞雷拉基因組公司各自獨立完成,並分別公開發表)被認為是人類基因組計劃成功的里程碑。
“人類基因組計劃”在研究人類過程中建立起來的策略、思想與技術,構成了生命科學領域新的學科——基因組學,可以用於研究微生物、植物及其他動物。它是人類自然科學史上最偉大的創舉之一。
人類基因組計劃
1985年5月在加州Santa Cruz由美國DOE的Sinsheimer RL主持的會議上提出了測定人類基因組全序列的動議,形成了美國能源部的“人類基因組計劃”草案。
1986年3月,在新墨西哥州的Santa Fe討論了這一計劃的可行性,隨後DOE宣布實施這一計劃。
1986年,諾貝爾獎得主杜爾貝科(R. Dulbecco)在《科學》(Science)周刊撰文回顧腫瘤研究的進展,指出要麼依舊採用“零敲碎打”的策略,要麼從整體上研究和分析人類基因組。文中指出:如果我們想更多地了解腫瘤,我們必須關注細胞的基因組。…… 從哪個物種著手努力?如果我們想理解人類腫瘤,那就應從人類開始。……人類腫瘤研究將因對DNA的詳細知識而得到巨大推動。”
1986年遺傳學家McKusick V提出從整個基因組的層次研究遺傳的科學稱為“基因組學”
1987年初,美國能源部和國立衛生研究院為HGP下撥了啟動經費約550萬美元(全年1.66億美元)
1988年,美國成立了“國家人類基因組研究中心”由Watson J出任第一任主任
1990年10月1日,經美國國會批准美國HGP正式啟動,總體計劃在15年內投入至少30億美元進行人類全基因組的分析。
1987年,義大利共和國國家研究委員會開始HGP研究,其特點是技術多樣(YAC,雜種細胞,cDNA等)、區域集中(基本上限於Xq24-qter區域)
1989年2月英國開始HGP,特點是:帝國癌症研究基金會與國家醫學研究委員會(ICRP-MRC)共同負責全國協調與資金調控,劍橋附近的Sanger中心注重首先在線蟲基因組上積累經驗,改進大規模DNA測序技術;同時建立了YAC庫的篩選與克隆、特異細胞系、DNA探針、基因組DNA、cDNA文庫、比較生物基因組DNA序列、信息分析等的“英國人類基因組資源中心”。可謂“資源集中、全國協調”。
人類基因組遺傳圖
1990年,美國能源部(DOE)與國立衛生研究院(NIH)共同啟動HGP,原定投入30億美元,用15年時間完成該計劃。英、日、法、德等國相繼加入。
1995年德意志聯邦共和國開始HGP,來勢迅猛,先後成立了資源中心和基因掃描定位中心,並開始對21號染色體的大規模測序工作。
1990年6月歐共體通過了“歐洲人類基因組研究計劃”,主要資助23個實驗室重點用於“資源中心”的建立和運轉。還有丹麥王國、俄羅斯聯邦、日本、韓國、澳大利亞等。
1994年,中國HGP在吳旻、強伯勤、陳竺、楊煥明的倡導下啟動,最初由國家自然科學基金會和863高科技計劃的支持下,先後啟動了“中華民族基因組中若干位點基因結構的研究”和“重大疾病相關基因的定位、克隆、結構和功能研究”,
1998年在國家科技部的領導和牽線下,在上海成立了南方基因中心。
1998年5月11日,世界上最大的測序儀生產商美國PE Biosystems公司,以其剛研製成功的300台最新毛細管自動測序儀(ABI 3700)和3億美元資金,成立了Celera Genomics公司,宣稱要在3年內,以所謂的“人類全基因組霰彈法測序策略”完成人類基因組測序,並聲稱要專利200~400個重要基因,並將所有序列信息保密3個月。Celera公司已有僱員300多人,購買了號稱“全球第三”的超大型計算機,號稱擁有了超過全球所有序列組裝解讀力量總和的實力。就在六國共同宣布工作框架圖構建完成的同一天,Celera公司宣稱已組裝出了完整的人類遺傳密碼。Celera公司此舉,是對公益性的HGP的競爭與挑戰
1998年,組建了中科院遺傳所,1998年在北京成立了北方人類基因組中心。1999年7月在國際人類基因組註冊,得到完成人類3號染色體短臂上一個約30Mb區域的測序任務,該區域約佔人類整個基因組的1%。
人類基因組計劃(Human genome project)由美國於1987年啟動,中國於1999年9月積極參加到這項研究計劃中的,承擔其中1%的任務,即人類3號染色體短臂上約3000萬個鹼基對的測序任務。中國因此成為參加這項研究計劃的唯一的發展中國家。
2000年6月26日,參加人類基因組工程項目的美國、英國、法蘭西共和國、德意志聯邦共和國、日本和中國的6國科學家共同宣布,人類基因組草圖的繪製工作已經完成。最終完成圖要求測序所用的克隆能忠實地代表常染色體的基因組結構,序列錯誤率低於萬分之一。95%常染色質區域被測序,每個Gap小於150kb。完成圖將於2003年完成,比預計提前2年。由於人類基因測序和基因專利可能會帶來巨大的商業價值,各國政府和一些企業都在積極地投入該項研究,如1997年AMGEN公司轉讓了一個與中樞神經疾病有關的基因而獲利3.92億美元。
人類基因組DNA草圖
測出人類基因組DNA的30億個鹼基對的序列,發現所有人類基因,找出它們在染色體上的位置,破譯人類全部遺傳信息。
在人類基因組計劃中,還包括對五種生物基因組的研究:大腸桿菌、酵母、線蟲、果蠅和小鼠,稱之為人類的五種“模式生物”。
HGP的目的是解碼生命、了解生命的起源、了解生命體生長發育的規律、認識種屬之間和個體之間存在差異的起因、認識疾病產生的機制以及長壽與衰老等生命現象、為疾病的診治提供科學依據。
又稱連鎖圖譜(linkage map),它是以具有遺傳多態性(在一個遺傳位點上具有一個以上的等位基因,在群體中的出現頻率皆高於1%)的遺傳標記為“路標”,以遺傳學距離(在減數分裂事件中兩個位點之間進行交換、重組的百分率,1%的重組率稱為1cM)為圖距的基因組圖。遺傳圖譜的建立為基因識別和完成基因定位創造了條件。意義:6000多個遺傳標記已經能夠把人的基因組分成6000多個區域,使得連鎖分析法可以找到某一致病的或表現型的基因與某一標記鄰近(緊密連鎖)的證據,這樣可把這一基因定位於這一已知區域,再對基因進行分離和研究。對於疾病而言,找基因和分析基因是個關鍵。
第1代標記
經典的遺傳標記,例如ABO血型位點標記,HLA位點標記。70年中後期,限制性片段長度多態性(RFLP),位點數目大於105,用限制性內切酶特異性切割DNA鏈,由於DNA的一個“點”上的變異所造成的能切與不能切兩種狀況,可產生不同長度的片段(等位片段),可用凝膠電泳顯示多態性,從片段多態性的信息與疾病表型間的關係進行連鎖分析,找到致病基因。如Huntington症。但每次酶切2-3個片段,信息量有限。
第2代標記
1985年,小衛星中心(minisatellite core)、可變串聯重複VNTR(variable number of tandem repeats)可提供不同長度的片段,其重複單位長度為6至12個核苷酸,1989年微衛星標記(microsatellite marker)系統被發現和建立,重複單位長度為2~6個核苷酸,又稱簡短串聯重複(STR)。
第3代標記
1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遺傳標記系統。對每一核苷酸突變率為10-9,雙等位型標記,在人類基因組中可達到300萬個,平均約每1250個鹼基對就會有一個。3~4個相鄰的標記構成的單倍型(haplotype)就可有8~16種。
物理圖譜是指有關構成基因組的全部基因的排列和間距的信息,它是通過對構成基因組的DNA分子進行測定而繪製的。繪製物理圖譜的目的是把有關基因的遺傳信息及其在每條染色體上的相對位置線性而系統地排列出來。DNA物理圖譜是指DNA鏈的限制性酶切片段的排列順序,即酶切片段在DNA鏈上的定位。因限制性內切酶在DNA鏈上的切口是以特異序列為基礎的,核苷酸序列不同的DNA,經酶切后就會產生不同長度的DNA片段,由此而構成獨特的酶切圖譜。因此,DNA物理圖譜是DNA分子結構的特徵之一。DNA是很大的分子,由限制酶產生的用於測序反應的DNA片段只是其中的極小部分,這些片段在DNA鏈中所處的位置關係是應該首先解決的問題,故DNA物理圖譜是順序測定的基礎,也可理解為指導DNA測序的藍圖。廣義地說,DNA測序從物理圖譜製作開始,它是測序工作的第一步。製作DNA物理圖譜的方法有多種,這裡選擇一種常用的簡便方法──標記片段的部分酶解法,來說明圖譜製作原理。
用部分酶解法測定DNA物理圖譜包括二個基本步驟:
⑴完全降解
選擇合適的限制性內切酶將待測DNA鏈(已經標記放射性同位素)完全降解,降解產物經凝膠電泳分離後進行自顯影,獲得的圖譜即為組成該DNA鏈的酶切片段的數目和大小。
⑵部分降解
以末端標記使待測DNA的一條鏈帶上示蹤同位素,然後用上述相同酶部分降解該DNA鏈,即通過控制反應條件使DNA鏈上該酶的切口隨機斷裂,而避免所有切口斷裂的完全降解發生。部分酶解產物同樣進行電泳分離及自顯影。比較上述二步的自顯影圖譜,根據片段大小及彼此間的差異即可排出酶切片段在DNA鏈上的位置。下面是測定某組蛋白基因DNA物理圖譜的詳細說明。
完整的物理圖譜應包括人類基因組的不同載體DNA克隆片段重疊群圖,大片段限制性內切酶切點圖,DNA片段或一特異DNA序列(STS)的路標圖,以及基因組中廣泛存在的特徵型序列(如CpG序列、Alu序列,isochore)等的標記圖,人類基因組的細胞遺傳學圖(即染色體的區、帶、亞帶,或以染色體長度的百分率定標記),最終在分子水平上與序列圖的統一。
基本原理是把龐大的無從下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作為圖距,以DNA探針的STS(sequence tags site)序列為路標。1998 年完成了具有52,000個序列標籤位點(STS),並覆蓋人類基因組大部分區域的連續克隆系的物理圖譜。構建物理圖的一個主要內容是把含有STS對應序列的DNA的克隆片段連接成相互重疊的“片段重疊群(contig)”。用“酵母人工染色體(YAC)作為載體的載有人DNA片段的文庫已包含了構建總體覆蓋率為100%、具有高度代表性的片段重疊群”,近幾年來又發展了可靠性更高的BAC、PAC庫或cosmid庫等。
隨著遺傳圖譜和物理圖譜的完成,測序就成為重中之重的工作。DNA序列分析技術是一個包括製備DNA片段化及鹼基分析、DNA信息翻譯的多階段的過程。通過測序得到基因組的序列圖譜。
大規模測序基本策略
逐個克隆法
對連續克隆系中排定的BAC克隆逐個進行亞克隆測序並進行組裝(公共領域測序計劃)。
全基因組鳥槍法
在一定作圖信息基礎上,繞過大片段連續克隆系的構建而直接將基因組分解成小片段隨機測序,利用超級計算機進行組裝(美國Celera公司)。
轉錄圖譜是在識別基因組所包含的蛋白質編碼序列的基礎上繪製的結合有關基因序列、位置及表達模式等信息的圖譜。在人類基因組中鑒別出占具2%~5%長度的全部基因的位置、結構與功能,最主要的方法是通過基因的表達產物mRNA反追到染色體的位置。
原理
所有生物性狀和疾病都是由結構或功能蛋白質決定的,而已知的所有蛋白質都是由mRNA編碼的,這樣可以把mRNA通過反轉錄酶合成cDNA或稱作EST的部分的cDNA片段,也可根據mRNA的信息人工合成cDNA或cDNA片段,然後,再用這種穩定的cDNA或EST作為“探針”進行分子雜交,鑒別出與轉錄有關的基因。用PolyA互補的寡聚T或克隆載體的相關序列作為引物對mRNA雙端尾側的幾百個bp進行測序得到EST(表達序列標籤)。2000年6月,EMBL中EST數量已有4,229,786。
轉錄圖譜的意義
在於它能有效地反應在正常或受控條件中表達的全基因的時空圖。通過這張圖可以了解某一基因在不同時間不同組織、不同水平的表達;也可以了解一種組織中不同時間、不同基因中不同水平的表達,還可以了解某一特定時間、不同組織中的不同基因不同水平的表達。
人類基因組是一個國際合作項目:表徵人類基因組,選擇的模式生物的DNA測序和作圖,發展基因組研究的新技術,完善人類基因組研究涉及的倫理、法律和社會問題,培訓能利用HGP發展起來的這些技術和資源進行生物學研究的科學家,促進人類健康。
人類疾病貢獻
人類疾病相關的基因是人類基因組中結構和功能完整性至關重要的信息。對於單基因病,採用“定位克隆”和“定位候選克隆”的全新思路,導致了亨廷頓氏舞蹈症、遺傳性結腸癌和乳腺癌等一大批單基因遺傳病致病基因的發現,為這些疾病的基因診斷和基因治療奠定了基礎。對於心血管疾病、腫瘤、糖尿病、神經精神類疾病(老年性痴獃、精神分裂症)、自身免疫性疾病等多基因疾病是疾病基因研究的重點。健康相關研究是HGP的重要組成部分,1997年相繼提出:“腫瘤基因組解剖計劃”“環境基因組學計劃”。
對醫學的貢獻
基因診斷、基因治療和基於基因組知識的治療、基於基因組信息的疾病預防、疾病易感基因的識別、風險人群生活方式、環境因子的干預。
生物技術貢獻
胚胎細胞克隆羊——多利
分泌蛋白(多肽激素,生長因子,趨化因子,凝血和抗凝血因子等)及其受體。
⑵診斷和研究試劑產業
基因和抗體試劑盒、診斷和研究用生物晶元、疾病和篩葯模型。
推動細胞工程
胚胎和成年期幹細胞、克隆技術、器官再造。
對製藥的貢獻
篩選藥物的靶點:與組合化學和天然化合物分離技術結合,建立高通量的受體、酶結合試驗以知識為基礎的藥物設計:基因蛋白產物的高級結構分析、預測、模擬—藥物作用“口袋”。
個體化的藥物治療:藥物基因組學。
社會經濟影響
生物產業與信息產業是一個國家的兩大經濟支柱;發現新功能基因的社會和經濟效益;轉基因食品;轉基因藥物(如減肥藥,增高葯)
生物進化影響
生物的進化史,都刻寫在各基因組的“天書”上;草履蟲是人的親戚——13億年;人是由300~400萬年前的一種猴子進化來的;人類第一次“走出非洲”——200萬年的古猿;人類的“夏娃”來自於非洲,距今20萬年——第二次“走出非洲”?
負面作用
侏羅紀公園不只是科幻故事;種族選擇性滅絕性生物武器;基因專利戰;基因資源的掠奪戰;基因與個人隱私。
破譯人類遺傳信息,將對生物學,醫學,乃至整個生命科學產生無法估量的深遠影響。目前基因組信息的註釋工作仍然處於初級階段。隨著將來對基因組的理解更加深入,新的知識會使醫學和生物技術領域發展更為迅速。基於DNA載有的信息在細胞生命活動中的指導作用,在分子生物學水平上深入了解疾病的產生過程將大力推動新的療法和新葯的開發研究。對於癌症、老年痴呆症等疾病的病因研究也將會受益於基因組遺傳信息的破解。事實上,在人類基因組計劃完成之前,它的潛在使用價值就已經表現出來。大量的企業,例如巨數遺傳公司開始提供價格合宜,而且容易使用的基因檢測,其聲稱可以預測包括乳腺癌、凝血、纖維性囊腫、肝臟疾病在內的很多種疾病。
人類基因組計劃對許多生物學研究領域有切實的幫助。例如,當科研人員研究一種癌症時,通過人類基因組計劃所提供的信息,可能會找到某個,或某些相關基因。如果在網際網路上訪問由人類基因組信息而建立的各種資料庫,可以查詢到其他科學家相關的文章,包括基因的DNA,cDNA鹼基順序,蛋白質立體結構、功能,多態性,以及和人類其他基因之間的關係。也可找到和小鼠、酵母、果蠅等對應基因的進化關係,可能存在的突變及相關的信號傳到機制。人類基因組計劃對與腫瘤相關的癌基因,腫瘤抑制基因的研究工作,起到了重要的推動作用。
分析不同物種的DNA序列的相似性會給生物進化和演變的研究提供更廣闊的路徑。事實上,人類基因組計劃提供的數據揭示了許多重要的生物進化史上的里程碑事件。如核糖體的出現,器官的產生,胚胎的發育,脊柱和免疫系統等都和DNA載有的遺傳信息有密切關係。
疾病基因示意圖
所有這些將隨著人類基因組序列草圖的實用性而改變。在公共資料庫中的人類基因組序列使得候選基因的計算機快速識別成為可能,隨之進行相關候選基因的突變檢測,需要在基因結構信息的幫助。對於孟德爾遺傳疾病,一個基因的搜索在一個適當大小的研究小組經常在幾個月實現。至少30個疾病基因直接依賴公共提供的基因組序列已經定位克隆到。因為大多數人類序列只是在過去的12個月內得到,可能許多類似的發現還沒有出版。另外,有許多案例中,基因組序列發揮著支持作用,例如提供候選微衛星標識用於很好的遺傳連鎖分析。(2001年中國上海和北京科學家發現遺傳性乳光牙本質Ⅱ型基因)
基因組序列對於揭示導致許多普通的染色體刪除綜合症的機制同樣有幫助。在幾個實例中,再發生的刪除被發現,由同源體重組合在大的幾乎同一的染色體內複製的不等交叉產生。例子包括在第22條染色體上的DiGeorge/ velocardiofacial綜合症區和在第7條染色體上的Williams-Beuren綜合症的重複刪除。
基因組序列的可用性同樣允許疾病基因的旁系同源性的快速識別,對於兩個理由是有價值的。首先,旁系同源基因的突變可以引起相關遺傳疾病。通過基因組序列使用發現的一個很好的例子是色盲(完全色盲)。CNGA3基因,編碼視錐體光感受器環GMP門控通道的a亞單位,顯示在一些色盲家系中存在突變體。基因組序列的計算機檢索揭示了旁系同源基因編碼相應的b亞單位,CNGB3(在EST資料庫中沒有出現)。CNGB3基因被快速認定為是其他家系的色盲的原因。另一個例子是由早衰1和早衰2基因提供的,它們的突變可能導致Alzheimer疾病的的早期發生。第二個理由是旁系同源體可以提供治療敢於的機會,例子是在鐮刀狀細胞疾病或β地中海貧血的個體中試圖再次激活胚胎表達的血紅蛋白基因,它是由於β-球蛋白基因突變引起的。
我們在在線人類孟德爾遺傳資料庫(OMIM)和SwissProt 或TrEMBL蛋白質資料庫中進行了971個已知的人類疾病基因的旁系同源體的系統檢索。我們識別了286個潛在的旁系同源體(要求是至少50個氨基酸的匹配,在相同的染色體上一致性大於70%但小於90%,在不同的染色體上小於95%)。儘管這種分析也許識別一些假基因,89%的匹配顯示在新靶序列一個外顯子以上的同源性,意味著許多是有功能的。這種分析顯示了在計算機中快速識別疾病基因的潛能。
在過去的世紀里,製藥產業很大程度上依賴於有限的藥物靶來開發新的治療手段。最近的綱要列舉了483個藥物靶被看作是解決了市場上的所有藥物。知道了人類的全部基因和蛋白質將極大的擴展合適藥物靶的尋找。雖然,僅僅人類的小部分基因可以作為藥物靶,可以預測這個數目將在幾千之上,這個前景將導致基因組研究在藥物研究和開發中的大規模開展。一些例子可以說明這一點:
⑴神經遞質(5-HT)通過化學門控通道介導快速興奮響應。以前識別的5-HT3A受體基因產生功能受體,但是比在活體內有小得多的電導。交叉雜交實驗和EST分析在揭示已知受體的其他同源體上都失敗了。然而,通過對人類基因組序列草圖的低要求檢索,一個推定的同源體被識別,在一個PAC克隆中第11號染色體長臂上。同源體顯示在紋狀體、尾狀核、海馬中表達,全長cDNA隨後得到。這個編碼胺受體地基因,被命名為5-HT3B。當與5-HT3A組合成異二聚體中,它顯示負責大電導神經胺通道。假定胺途徑在精神疾病和精神分裂症的中心作用,一個主要的新的治療靶的發現是相當有興趣的。
⑵半胱氨醯基白三烯的收縮和炎症作用,先前認為是過敏反應的慢反映物質(SRS-A),通過特定的受體介導。第二個類似的受體,CysLT2,使用老鼠EST和人類基因組序列的重組得到識別。這導致了與先前識別的唯一的其它受體有38%氨基酸一致性的基因的克隆。這個新的受體,顯示高的親和力和幾個白三烯的結合,映射在與過敏性哮喘有關的第13號染色體區域上。這個基因在氣道平滑肌和心臟中表達。作為白三烯途徑中抗哮喘藥物開發中一個重要的靶,新受體的發現有明顯的重要的作用。
⑶ Alzheimer疾病在老年斑中有豐富的β-澱粉樣物沉積。β-澱粉樣物由前體蛋白(APP)蛋白水解生成。有一個酶是β位 APP裂開酶,是跨膜天冬氨酸蛋白酶。公共的人類基因組草圖序列計算機搜索最近識別了BACE的一個新的同源序列,編碼一個蛋白,命名為BACE2,它與BACE有52%的氨基酸序列一致性。包含兩個激活蛋白酶位點和象APP一樣,映射到第21條染色體的必須Down綜合症區域。它提出了問題,BACE2和APP過多的拷貝是否有功於加速Down綜合症病人的腦部β-澱粉樣物沉積。
給出了這些例子,我們在基因組序列中進行系統的識別傳統葯靶蛋白質的旁系同源體。使用的靶列表在SwissPrott資料庫中識別了603個入口,有唯一的訪問碼。
一個例子是:解決了困擾研究者幾十年的一個神秘課題:苦味的分子學基礎。人類和其他動物對於某一種苦味有不同的響應(響應的多態性)。最近,研究者將這個特徵映射到人類和老鼠中,然後檢索了G蛋白偶合受體的人類基因組序列草圖上的相關區域。這些研究很快導致了該類蛋白的新家族的發現,證明了它們幾乎都在味蕾表達,實驗證實了在培養細胞中的受體響應特定的苦基質。
人體基因組圖譜是全人類的財產,這一研究成果理應為全人類所分享、造福全人類,這是參與人類基因組工程計劃的各國科學家的共識。值得關注的是,目前在人類基因組研究領域,出現了一些私營公司爭相為其成果申請專利的現象。美國塞萊拉基因公司曾表示,想把一部分研究成果申請專利,有償提供給製藥公司。
找到了一批主宰人體疾病的重要基因
如:肥胖基因、支氣管哮喘基因。這類基因的新發現每年都有新報道。這些基因的發現,增進了人們對許多重要疾病機理的理解,並且推動整個醫學思想更快的從重治療轉向重預防。例如:湖南醫科大學夏家輝教授組於1998.5.28發表克隆了人類神經性高頻性耳聾的致病基因(GJB3),這是第一次在中國克隆的基因。
在人類基因組計劃的推動下,湧現了幾門嶄新的學科。如:基因組學(genomics)和生物信息學(bioinformatics)
生物技術的產業化。一批世界級的大公司紛紛把它們的重心轉向生命科學研究和生物技術產品。這種趨勢或潮流也不能不說和人類基因組計劃密切相關。
完成人類基因組序列完成圖
⑴ 從當前物理圖譜生成的克隆產生完成的序列,覆蓋基因組的常染色質區域大於96%。大約1Gb的完成序列已經實現。剩下的也已經形成草圖,所有的克隆期望達到8~10倍的覆蓋率,大約2001年中期(99.99%的正確率),使用已經建立的和日益自動化的協議。
⑵ 檢測另外的庫來關閉gaps。使用FISH技術或其他方法來分析沒有閉合的Gaps大小。22,21條染色體用這種方式。2003年已經完成。
⑶ 開發新的技術來關閉難度較大的gaps,大約幾百個。
基因組序列工作框架圖(Working draft):通過對染色體位置明確的BAC連續克隆系4-5倍覆蓋率的測序(在BAC克隆水平的覆蓋率不應低於3倍),獲得基因組90%以上的序列,其錯誤率應低於1%。工作框架圖可用於基因組結構的認識、基因的識別和解析、疾病基因的定位克隆,SNP的發現等。
草圖的作用
1、草圖,許多疾病相關的基因被識別
2、SNP(人與人之間的區別),草圖提供了一個理解遺傳基礎和人類特徵進化的框架。
3、草圖后,研究人員有了新的工具來研究調節區和基因網路。
4、比較其它基因組可以揭示共同的調控元件,和其他物種共享的基因的環境也許提供在個體水平之上的關於功能和調節的信息。
5、草圖同樣是研究基因組三維壓縮到細胞核中的一個起點。這樣的壓縮可能影響到基因調控
6、在應用上,草圖信息可以開發新的技術,如DNA晶元、蛋白質晶元,作為傳統方法的補充,目前,這樣的晶元可以包含蛋白質家族中所有的成員,從而在特定的疾病組織中可以找到那些是活躍的。
2001年2月12日,美國Celera公司與人類基因組計劃分別在《科學》和《自然》雜誌上公布了人類基因組精細圖譜及其初步分析結果。其中,政府資助的人類基因組計劃採取基因圖策略,而Celera公司採取了“鳥槍策略”。至此,兩個不同的組織使用不同的方法都實現了他們共同的目標:完成對整個人類基因組的測序的工作;並且,兩者的結果驚人的相似。整個人類基因組測序工作的基本完成,為人類生命科學開闢了一個新紀元,它對生命本質、人類進化、生物遺傳、個體差異、發病機制、疾病防治、新葯開發、健康長壽等領域,以及對整個生物學都具有深遠的影響和重大意義,標誌著人類生命科學一個新時代的來臨。
眾多發現
1、分析得知:全部人類基因組約有2.91Gbp,約有39000多個基因;平均的基因大小有27kbp;其中G+C含量偏低,僅佔38%,而2號染色體中G+C的含量最多;到目前仍有9%的鹼基對序列未被確定,19號染色體是含基因最豐富的染色體,而13號染色體含基因量最少等等(具體信息可參見cmbi 特別報道:生命科學的重大進展)。
2、目前已經發現和定位了26000多個功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶佔10.28%,核酸酶佔7.5%,信號傳導佔12.2%,轉錄因子佔6.0%,信號分子佔1.2%,受體分子佔5.3%,選擇性調節分子佔3.2%,等。發現並了解這些功能基因的作用對於基因功能和新葯的篩選都具有重要的意義。
3、基因數量少得驚人:一些研究人員曾經預測人類約有14萬個基因,但Celera公司將人類基因總數定在2.6383萬到3.9114萬個之間,不超過40,000,只是線蟲或果蠅基因數量的兩倍,人有而鼠沒有的基因只有300個。如此少的基因數目,而能產生如此複雜的功能,說明基因組的大小和基因的數量在生命進化上可能不具有特別重大的意義,也說明人類的基因較其他生物體更'有效',人類某些基因的功能和控制蛋白質產生的能力與其他生物的不同。這將對我們目前的許多觀念產生重大的挑戰,它為後基因組時代中生物醫學的發展提供新的非凡的機遇。但由於基因剪切,EST資料庫的重複以及一些技術和方法上的誤差,將來亦可能人類的基因數會多於4萬。
4、人類單核苷酸多態性的比例約為1/1250bp,不同人群僅有140萬個核苷酸差異,人與人之間99.99%的基因密碼是相同的。並且發現,來自不同人種的人比來自同一人種的人在基因上更為相似。在整個基因組序列中,人與人之間的變異僅為萬分之一,從而說明人類不同“種屬”之間並沒有本質上的區別。
5、人類基因組中存在“熱點”和大片"荒漠"。在染色體上有基因成簇密集分佈的區域,也有大片的區域只有“無用DNA” ——不包含或含有極少基因的成分。基因組上大約有1/4的區域沒有基因的片段。在所有的DNA中,只有1%-1.5%DNA能編碼蛋白,在人類基因組中98%以上序列都是所謂的“無用DNA”,分佈著300多萬個長片斷重複序列。這些重複的“無用”序列,決不是無用的,它一定蘊含著人類基因的新功能和奧秘,包含著人類演化和差異的信息。經典分子生物學認為一個基因只能表達一種蛋白質,而人體中存在著非常複雜繁多的蛋白質,提示一個基因可以編碼多種蛋白質,蛋白質比基因具有更為重要的意義
6、男性的基因突變率是女性的兩倍,而且大部分人類遺傳疾病是在Y染色體上進行的。所以,可能男性在人類的遺傳中起著更重要的作用。
7、人類基因組中大約有200多個基因是來自於插入人類祖先基因組的細菌基因。這種插入基因在無脊椎動物是很罕見的,說明是在人類進化晚期才插入我們基因組的。可能是在我們人類的免疫防禦系統建立起來前,寄生於機體中的細菌在共生過程中發生了與人類基因組的基因交換。
8、發現了大約一百四十萬個單核苷酸多態性,並進行了精確的定位,初步確定了30多種致病基因。隨著進一步分析,我們不僅可以確定遺傳病、腫瘤、心血管病、糖尿病等危害人類生命健康最嚴重疾病的致病基因,尋找出個體化的防治藥物和方法,同時對進一步了解人類的進化產生重大的作用。
9、人類基因組編碼的全套蛋白質(蛋白質組)比無脊椎動物編碼的蛋白質組更複雜。人類和其他脊椎動物重排了已有蛋白質的結構域,形成了新的結構。也就是說人類的進化和特徵不僅靠產生全新的蛋白質,更重要的是要靠重排和擴展已有的蛋白質,以實現蛋白質種類和功能的多樣性。有人推測一個基因平均可以編碼2-10種蛋白質,以適應人類複雜的功能。
模式生物:酵母(yeast)、大腸桿菌(Escherichia coli)、果蠅(Drosophila melanogaster)、線蟲(Caenorhabditis elegans)、小鼠(Mus musculus)、擬南芥、水稻、玉米等等其它一些模式生物的基因組計劃也都相繼完成或正在順利進行。
目前基因組學的研究出現了幾個重心的轉移:一是將已知基因的序列與功能聯繫在一起的功能基因組學研究;二是從作圖為基礎的基因分離轉向以序列為基礎的基因分離;三是從研究疾病的起因轉向探索發病機理;四是從疾病診斷轉向疾病易感性研究。
在後基因組時代,如果在已完成基因組測序的物種之間進行整體的比較、分析,希望在整個基因組的規模上了解基因組和蛋白質組的功能意義,包括基因組的表達與調控、基因組的多樣化和進化規律以及基因及其產物在生物體生長、發育、分化、行為、老化和治病過程中的作用機制都必須發展新的演演算法以充分利用超級計算機的超級計算能力。
美國和英國科學家2006年5月18日在英國《自然》雜誌網路版上發表了人類最後一個染色體——1號染色體的基因測序。
在人體全部22對常染色體中,1號染色體包含基因數量最多,達3141個,是平均水平的兩倍,共有超過2.23億個鹼基對,破譯難度也最大。一個由150名英國和美國科學家組成的團隊歷時10年,才完成了1號染色體的測序工作。
科學家不止一次宣布人類基因組計劃完工,但推出的均不是全本,這一次殺青的“生命之書”更為精確,覆蓋了人類基因組的99.99%。解讀人體基因密碼的“生命之書”宣告完成,歷時16年的人類基因組計劃書寫完了最後一個章節。
人類基因組計劃中還包括若干個模式生物體基因組計劃,中國重點支持的水稻基因組研究計劃亦可划入這一範疇。模式生物體一直就是生命科學領域研究的基本模型,加之它們與人類相比基因組結構簡單、單位DNA長度上基因密度高,易於基因的識別,而且從低等至高等的各個模式生物是研究基因分子進化的絕佳材料。各模式生物體之間的比較性研究將有助於人類基因的結構與功能的闡明。對於在整體水平研究基因的功能,模式生物體更有著無法取代的地位。
中國的基因組研究工作起步較晚,而且是基礎差、底子薄、資金少,與國際上這幾年HGP的驚人速度相比,中間的差距很大,並且這種差距有進一步加大的可能。中國生命科學界應在如下幾個方面共同努力:
⒈ 儘快收集和利用中國寶貴的多民族基因組資源和遺傳病家系材料,並阻止這些資源盲目流向國外。
⒉ 集中人力、物力和財力,建立互相配套的、集分子遺傳學、自動化技術和信息技術為一體的中心,才能卓有成效地開展工作。
⒊ 根據中國國情和原有工作基礎,做到有所為有所不為,走“短平快”和出奇制勝的道路,直接楔入基因組研究中最為關鍵的部分-基因識別,如走“cDNA計劃”道路,儘可能地克隆一大批新基因,在人類8萬~10 萬個基因中佔有一定的份額。同時,由於基因組DNA測序是一項勞動和技能密集性工作,如能引進技術,培訓一支高水平的技術隊伍,完全有可能將人類基因組測序的一部分工作吸引到中國。
⒋ 充分利用國際基因資料庫中已有信息,建立生物信息技術,推進中國基因組研究工作,並在基因組轉錄順序的認識及基因功能推測方面多做工作。
⒌ 多渠道籌措資金,在維護知識產權的前提下開展國際間合作。
歷史已將中國當代科學家推上了人類基因組計劃這一國際合作和競爭的大舞台,他們責無旁貸地要為供養自己的國家和人民負責,為21世紀中國的科學、技術和產業負責,唯有高瞻遠矚地認清當前的形勢和不辭勞苦、不計得失地拼搏,才有可能在國際人類基因組計劃中佔有一席之地,有著交換和分享數據的資本,共同品嘗人類基因組這一全人類的“聖餐”。
中國1994年啟動HGP,現已完成南北方兩個漢族人群和西南、東北地區12個少數民族共733個永生細胞系的建立,為中華民族基因保存了寶貴的資源,並在多民族基因組多樣性的研究中取得了成就,在致病基因研究中有所發現。定名為中華民族基因組結構和功能研究的HGP為“九五”國家最大的資助研究項目之一(700萬元),為中國在下世紀國際HGP科學的新一輪競爭中佔據有利地位打好了基礎。
1、人類基因組測序
1990年~1998年,人類基因組序列已完成和正在測序的共計約330Mb,占人基因組的11%左右;已識別出 人類疾病相關的基因200個左右。此外,細菌、古細菌、支原體和酵母等17種生物的全基因組的測序已經完成。
值得一提的是,企業與研究部門的攜手,將大大地促進測序工作的完成。美國的基因組研究所(The Institute of Genome Research,TIGR)與PE(Perkin-Elmar)公司合作建立新公司,三年內投資2億美元,預計於2002年完成全序列的測定。這一進度將比美國政府資助的HGP的預定目標提前三年。美國加州的一家遺傳學數據公司(Incyte)宣布(1998年〕,兩年內測定基因組中的蛋白質編碼序列以及密碼子中的單核苷酸的多態性,最後將繪製一幅人的10萬個基因的定點陣圖。與Incyte公司合作的HGS(Human Genome Science)公司的負責人宣稱,截止1998年8月,該公司已鑒定出10萬多個基因(人體基因約為12萬個),並且得到了95%以上基因的EST(expressed sequence tag)或其部分序列。
1998年9月14日美國國家人類基因組計劃研究所(NHGRI)和美國能源部基因組研究計劃的負責人在一次諮詢會議上宣布,美國政府資助的人類基因組計劃將於2001年完成大部分蛋白質編碼區的測序,約佔基因組的三分之一,測序的差錯率不超過萬分之一。同時還要完成一幅“工作草圖”,至少覆蓋基因組的90%,差錯率為百分之一。2003年完成基因組測序,差錯率為萬分之一。這一時間表顯示,計劃將比開始的目標提前兩年完成。
2、疾病基因的定位克隆
人類基因組計劃的直接動因是要解決包括腫瘤在內的人類疾病的分子遺傳學問題。6000多個單基因遺傳病和多種大面積危害人類健康的多基因遺傳病的致病基因及相關基因,代表了對人類基因中結構和功能完整性至關重要的組成部分。所以,疾病基因的克隆在HGP中佔據著核心位置,也是計劃實施以來成果最顯著的部分。
在遺傳和物理作圖工作的帶動下,疾病基因的定位、克隆和鑒定研究已形成了,從表位→蛋白質→基因的傳統途徑轉向“反求遺傳學”或“定位克隆法”的全新思路。隨著人類基因圖的構成,3000多個人類基因已被精確地定位於染色體的各個區域。今後,一旦某個疾病位點被定位,就可以從局部的基因圖中遴選出相關基因進行分析。這種被稱為“定位候選克隆”的策略,將大大提高發現疾病基因的效率。
3、多基因病的研究
目前,人類疾病的基因組學研究已進入到多基因疾病這一難點。由於多基因疾病不遵循孟德爾遺傳規律,難以從一般的家系遺傳連鎖分析取得突破。這方面的研究需要在人群和遺傳標記的選擇、數學模型的建立、統計方法的 改進等方面進行艱苦的努力。近來也有學者提出,用比較基因表達譜的方法來識別疾病狀態下基因的激活或受抑。實際上,“癌腫基因組解剖學計劃(Cancer Genome Anatomy Project,CGAP”就代表了在這方面的嘗試。
4、中國的人類基因組研究
國際HGP 研究的飛速發展和日趨激烈的基因搶奪戰已引起了中國政府和科學界的高度重視。在政府的資助和一批高水平的生命科學家帶領下,中國已建成了一批實力較強的國家級生命科學重點實驗室,組建了北京、上海人類基因組研究中心。有了研究人類基因組的條件和基礎,並引進和建立了一批基因組研究中的新技術。中國的HGP在多民族基因保存、基因組多樣性的比較研究方面取得了令人滿意的成果,同時在白血病、食管癌、肝癌、鼻咽癌等易感基因研究方面亦取得了較大進展。
首先建立了寡核苷酸引物介導的人類高分辨染色體顯微切割和顯微基因克隆技術;已建立的17種染色體特異性DNA文庫和24種染色體區特異性DNA文庫及其探針;構建了人X染色體YAC圖譜,已完成了人X染色體Xp11.2-p21.3跨度的約35cM STS-YAC圖譜的構建;建立了YAC-cDNA篩選技術。
目前的研究工作還包括:疾病和功能相關新基因的分離、測序和克隆的技術和方法學的創新研究;中國少數民族HLA分型研究及特種基因的分析;人胎腦cDNA文庫的構建和新基因的克隆研究。
中國是世界上人口最多的國家,有56 個民族和極為豐富的病種資源,並且由於長期的社會封閉,在一些地區形成了極為難得的族群和遺傳隔離群,一些多世代、多個體的大家系具有典型的遺傳性狀,這些都是克隆相關基因的寶貴材料。但是,由於中國的HGP 研究工作起步較晚、底子薄、資金投入不足,缺乏一支穩定的、高素質的青年生力軍,中國的HGP 研究工作與國外近年來的驚人發展速度相比,差距還很大,並且有進一步加大的危險。如果我們在這場基因爭奪戰中不能堅守住自己的陣地,那麼在21 世紀的競爭中我們又將處於被動地位:我們不能自由地應用基因診斷和基因治療的權力,我們不能自由地進行生物藥物的生產和開發,我們亦不能自由地推動其他基因相關產業的發展。
1、生命科學工業的形成
由於基因組研究與製藥、生物技術、農業、食品、化學、化妝品、環境、能源和計算機等工業部門密切相關,更重要的是基因組的研究可以轉化為巨大的生產力,國際上一批大型製藥公司和化學工業公司大規模紛紛投巨資進軍基因組研究領域,形成了一個新的產業部門,即生命科學工業。
世界上一些大的製藥集團紛紛投資建立基因組研究所。Ciba-Geigy 和Ssandoz合資組建了Novartis 公司,並斥資2.5億美元建立研究所,開展基因組研究工作。Smith Kline 公司花1.25億美元加快測序的進度,將藥物開發項目的25%建立在基因組學之上。Glaxo-Wellcome 在基因組研究領域投入4,700萬美元,將研究人員增加了一倍。
大型化學工業公司向生命科學工業轉軌。孟山都公司早在1985年就開始轉向生命科學工業。至1997年,該公司向生物技術和基因組研究的投入已高達66億美元。1998年4月,杜邦公司宣布改組成三個實業單位,由生命科學領頭。1998年5月,該公司又宣布放棄能源公司Conaco,將其改造成一家生命科學公司。Dow化學公司用9億美元購入Eli Lilly公司40%的股票,從事穀物和食品研究,后又成立了生命科學公司。Hoechst公司則出售了它的基本化學品部門,轉項投資生物技術和製藥。
傳統的農業和食品部門也出現了向生物技術和製藥合併的趨勢。Genzyme Transgenics 公司培養出的基因工程羊能以較高的產量生產抗凝血酶Ⅲ,一群羊的酶產量相當於投資1.15億美元工廠的產量。據估計,轉基因動物生產的藥物成本是大規模細胞培養法的十分之一。一些公司還在研究生產能抗骨質疏鬆的穀物,以及大規模生產和加工基因工程食品。
能源、採礦和環境工業也已在分子水平上向基因組研究匯合。例如,用產甲烷菌Methanobacterium 作為一種新能源。用抗輻射的細菌Deinococcus radiodurans清除放射性物質的污染,並在轉入tod基因后,在高輻射環境下清除多種有害化學物質的污染。
2、功能基因組學
人類基因組計劃當前的整體發展趨勢是什麼?一方面,在順利實現遺傳圖和物理圖的製作后,結構基因組學正在向完成染色體的完整核酸序列圖的目標奮進。另一方面,功能基因組學已提上議事日程。人類基因組計劃已開始進入由結構基因組學向功能基因組學過渡、轉化的過程。在功能基因組學研究中,可能的核心問題有:基因組的表達及其調控、基因組的多樣性、模式生物體基因組研究等。
⑴基因組的表達及其調控
1)基因轉錄表達譜及其調控的研究
一個細胞的基因轉錄表達水平能夠精確而特異地反映其類型、發育階段以及反應狀態,是功能基因組學的主要內容之一。為了能夠全面地評價全部基因的表達,需要建立全新的工具系統,其定量敏感性水平應達到小於1個拷貝/細胞,定性敏感性應能夠區分剪接方式,還須達到檢測單細胞的能力。近年來發展的DNA微陣列技術,如DNA晶元,已有可能達到這一目標。
研究基因轉錄表達不僅是為了獲得全基因組表達的數據,以作為數學聚類分析。關鍵問題是要解析控制整個發育過程或反應通路的基因表達網路的機制。網路概念對於生理和病理條件下的基因表達調控都是十分重要的。一方面,大多數細胞中基因的產物都是與其它基因的產物互相作用的;另一方面,在發育過程中大多數的基因產物都是在多個時間和空間表達併發揮其功能,形成基因表達的多效性。在一個意義上,每個基因的表達模式只有放到它所在的調控網路的大背景下,才會有真正的意義。進行這方面的研究,有必要建立高通量的小鼠胚胎原位雜交技術。
2)蛋白質組學研究
蛋白質組學研究是要從整體水平上研究蛋白質的水平和修飾狀態。目前正在發展標準化和自動化的二維蛋白質凝膠電泳的工作體系。首先用一個自動系統來提取人類細胞的蛋白質,繼而用色譜儀進行部分分離,將每區段中的蛋白質裂解,再用質譜儀分析,並在蛋白質資料庫中通過特徵分析來認識產生的多肽。
蛋白質組研究的另一個重要內容是建立蛋白質相互關係的目錄。生物大分子之間的相互作用構成了生命活動的基礎。組裝基因組各成分間的詳盡作圖已在T7噬菌體(55個基因)獲得成功。如何在模式生物(如酵母)和人類基因組的研究中建立自動方法,認識不同的生化通路,是值得探討的問題。
3)生物信息學的應用
目前,生物信息學已大量應用於基因的發現和預測。然而,利用生物信息學去發現基因的蛋白質產物的功能更為重要。模式生物體中越來越多的蛋白質構建編碼單位被識別,無疑為基因和蛋白質同源關係的搜尋和家族的分類提供了極其寶貴的信息。同時,生物信息學的演演算法、程序也在不斷改善,使得不僅能夠從一級結構,也能從估計結構上發現同源關係。但是,利用計算機模擬所獲得的理論數據,還需要經過實驗經過的驗證和修正。
⑵基因組多樣性的研究
人類是一個具有多態性的群體。不同群體和個體在生物學性狀以及在對疾病的易感性與抗性上的差別,反映了進化過程中基因組與內、外部環境相互作用的結果。開展人類基因組多樣性的系統研究,無論對於了解人類的起源和進化,還是對於生物醫學均會產生重大的影響。
1)對人類DNA的再測序
可以預測,在完成第一個人類基因組測序后,必然會出現對各人種、群體進行再測序和精細基因分型的熱潮。這些資料與人類學、語言學的資料相結合,將有可能建立一個全人類的資料庫資源,從而更好地了解人類的歷史和自身特徵。另外,基因組多樣性的研究將成為疾病基因組學的主要內容之一,而群體遺傳學將日益成為生物醫藥研究中的主流工具。需要對各種常見多因素疾病(如高血壓、糖尿病和精神分裂症等)的相關基因及癌腫相關基因在基因組水平進行大規模的再測序,以識別其變異序列。
2)對其它生物的測序
對進化過程各個階段的生物進行系統的比較DNA測序,將揭開生命35億年的進化史。這樣的研究不僅能勾畫出一張詳盡的系統進化樹,而且將顯示進化過程中最主要的變化所發生的時間及特點,比如新基因的出現和全基因組的複製。
認識不同生物中基因序列的保守性,將能夠使我們有效地認識約束基因及其產物的功能性的因素。對序列差異性的研究則有助於認識產生大自然多樣性的基礎。在不同生物體之間建立序列變異與基因表達的時空差異之間的相關性,將有助於揭示基因的網路結構。
⑶開展對模式生物體的研究
1)比較基因組研究
在人類基因組的研究中,模式生物體的研究佔有極其重要的地位。儘管模式生物體的基因組的結構相對簡單,但是它們的核心細胞過程和生化通路在很大程度上是保守的。這項研究的意義是:1〕有助於發展和檢驗新的相關技術,如大規模測序、大規模表達譜檢驗、大規模功能篩選等;2〕通過比較和鑒定,能夠了解基因組的進化,從而加速對人類基因組結構和功能的了解;3〕模式生物體間的比較研究,為闡明基因表達機制提供了重要的線索。
目前對於基因組總體結構組成方面的知識,主要來源於模式生物體的基因組序列分析。通過對不同物種間基因調控序列的計算機分析,已發現了一定比例的保守性核心調控序列。根據這些序列建立的表達模式資料庫對破譯基因調控網路提供了必要的條件。
2)功能缺失突變的研究
識別基因功能最有效的方法,可能是觀察基因表達被阻斷後在細胞和整體所產生的表型變化。在這方面,基因剔除方法(knock-out)是一項特別有用的工具。目前。國際上已開展了對酵母、線蟲和果蠅的大規模功能基因組學研究,其中進展最快的是酵母。歐共體為此專門建立了一個稱為EUROFAN(European Functional Analysis Network)的研究網路。美國、加拿大和日本也啟動了類似的計劃。
隨著線蟲和果蠅基因組測序的完成,將來也可能開展對這兩種生物的類似性研究。一些突變株系和技術體系建立后,不僅能夠成為研究單基因功能的有效手段,而且為研究基因冗餘性和基因間的相互作用等深層次問題奠定了基礎。小鼠作為哺乳動物中的代表性模式生物,在功能基因組學的研究中展有特殊的地位。同源重組技術可以破壞小鼠的任何一個基因,這種方法的缺點是費用高。利用點突變、缺失突變和插入突變造成的隨機突變是另一中可能的途徑。對於人體細胞而言,建立反義寡核苷酸和核酶瞬間阻斷基因表達的體系可能更加合適。蛋白質水平的剔除術也許是說明基因功能最有力的手段。利用組合化學方法有望生產出化學剔除試劑,用於激活或失活各種蛋白質。
總之,模式生物體的基因組計劃為人類基因組的研究提供了大量的信息。今後,模式生物體的研究方向是將人類基因組8~10萬個編碼基因的大部分轉化為已知生化功能的多成分核心機制。而要獲得酶一種人類進化保守性核心機制的精細途徑,以及它們的紊亂導致疾病的各種途徑的知識,將只能來自對人類自身的研究。
通過功能基因組學的研究,人類最終將將能夠了解哪些進化機制已經確實發生,並考慮進化過程還能夠有哪些新的潛能。一種新的解答發育問題的方法可能是,將蛋白質功能域和調控順序進行重新的組合,建立新的基因網路和形態發生通路。也就是說,未來的生物科學不僅能夠認識生物體是如何構成和進化的,而且更為誘人的是產生構建新的生物體的可能潛力。該計劃在人類科學史上又豎起了一座新的里程碑!這是一項改變世界,影響人類生活的壯舉,隨著時間的推移,它的偉大意義將愈顯昭彰。
人類基因組計劃之塞雷拉人類基因組計劃
在國際人類基因組計劃(以下簡稱“國際計劃”)啟動八年後的1998年,美國科學家克萊格·凡特創辦了一家名為塞雷拉基因組(Celera Genomics)的小私立公司,開展自己的人類基因組計劃。與國際人類基因組計劃相比,公司希望能以更快的速度和更少的投資(3億美元,僅為國際計劃的十分之一)來完成。塞雷拉基因組的另起計劃被認為對人類基因組計劃是一件好事,因為塞雷拉基因組的競爭促使國際人類基因組計劃不得不改進其策略,進一步加速其工作進程,使得人類基因組計劃得以提前完成。
塞雷拉採用了更快速同時更具風險的技術全基因組霰彈槍測序法。霰彈槍測序法的思想是將基因組打斷為數百萬個DNA片斷,然後用一定的演演算法將片斷的序列信息重新整合在一起,從而得到整個基因組序列。為了提高這一方法的效率,1980年代,測序和片斷信息整合達到了自動化。這一方法雖然已被用於序列長達6百萬個鹼基對的細菌基因組測序,但對於人類基因組中3千萬個鹼基對的序列測定,這一技術能否成功在當時還未有定論。
基因的智慧財產權之爭
塞雷拉基因組一開始宣稱只尋求對200至300個基因的專利權保護,但隨後又修改為尋求對“完全鑒定的重要結構”的總共100至300個靶基因進行知識產權保護。1999年,塞雷拉申請對6500個完整的或部分的人類基因進行初步專利保護;批評者認為這一舉動將阻礙遺傳學研究。此外,塞雷拉建立之初,同意與國際計劃分享數據,但這一協定很快就因為塞雷拉拒絕將自己的測序數據存入可以自由訪問的公共資料庫而破裂。雖然塞雷拉承諾根據1996年百慕達協定每季度發表他們的最新進展(國際計劃則為每天),但不同於國際計劃的是,他們不允許他人自由發布或無償使用他們的數據。
2000年,美國總統柯林頓宣布所有人類基因組數據不允許專利保護,且必須對所有研究者公開,塞雷拉不得不決定將數據公開。這一事件也導致塞雷拉的股票價格一路下挫,並使倚重生物技術股的納斯達克受到重挫;兩天內,生物技術板塊的市值損失了約500億美元。
後人類基因組計劃
人類基因組計劃
人類基因組研究的目的不只是為了讀出全部的DNA序列,更重要的是讀懂每個基因的功能,每個基因與某種疾病的種種關係,真正對生命進行系統地科學解碼,從此達到從根本上了解認識生命的起源、種間、個體間的差異的原因,疾病產生的得機制以及長壽、衰老等困擾著人類的最基本的生命現象目的。
• 模式生物(包括小鼠、果蠅、線蟲、斑馬魚、酵母等)的基因組計劃。
• 人類元基因組計劃:對人體內所用共生菌群的基因組進行序列測定,並研究與人體發育和健康相關基因的功能。
• 國際人類基因組單體型圖計劃(簡稱HapMap計劃):目標是構建人類DNA序列中多態位點的常見模式。由於每個個體(除了孿生子和克隆動物)的基因組都有獨特之處,因此有必要對個體之間的差異在基因組上進行定位。其完成將為研究人員確定對人類健康和疾病以及對藥物和環境反應有影響的相關基因提供關鍵信息。
• 人類基因組多樣性研究計劃:對不同人種、民族、人群的基因組進行研究和比較。這一計劃將為疾病監測、人類的進化研究和人類學研究提供重要信息。