單核苷酸多態性
單核苷酸多態性
單核苷酸多態性主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。它是人類可遺傳的變異中最常見的一種,占所有已知多態性的80%以上。SNP在人類基因組中廣泛存在,平均每500〜1000個鹼基對中就有1個,估計其總數可達300萬個甚至更多。SNP是一種二態的標記,由單個鹼基的轉換或顛換所引起,也可由鹼基的插入或缺失所致。SNP既可能在基因序列內,也可能在基因以外的非編碼序列上。
SNP所表現的多態性只涉及到單個鹼基的變異,這種變異可由單個鹼基的轉換(transition)或顛換(transversion)所引起,也可由鹼基的插入或缺失所致。但通常所說的SNP並不包括后兩種情況。
理論上講,SNP既可能是二等位多態性,也可能是3個或4個等位多態性,但實際上,后兩者非常少見,幾乎可以忽略。因此,通常所說的SNP都是二等位多態性的。這種變異可能是轉換(C←→T,在其互補鏈上則為G←→A),也可能是顛換(C←→A,G←→T,C←→G,A←→T)。轉換的發生率總是明顯高於其它幾種變異,具有轉換型變異的SNP約佔2/3,其它幾種變異的發生幾率相似。Wang等的研究也證明了這一點。轉換的幾率之所以高,可能是因為CpG二核苷酸上的胞嘧啶殘基是人類基因組中最易發生突變的位點,其中大多數是甲基化的,可自發地脫去氨基而形成胸腺嘧啶。
在基因組DNA中,任何鹼基均有可能發生變異,因此SNP既有可能在基因序列內,也有可能在基因以外的非編碼序列上。總的來說,位於編碼區內的SNP(coding SNP,cSNP)比較少,因為在外顯子內,其變異率僅及周圍序列的1/5。但它在遺傳性疾病研究中卻具有重要意義,因此cSNP的研究更受關注。
從對生物的遺傳性狀的影響上來看,cSNP又可分為2種:一種是同義cSNP(synonymous cSNP),即SNP所致的編碼序列的改變並不影響其所翻譯的蛋白質的氨基酸序列,突變鹼基與未突變鹼基的含義相同;另一種是非同義cSNP(non-synonymous cSNP),指鹼基序列的改變可使以其為藍本翻譯的蛋白質序列發生改變,從而影響了蛋白質的功能。這種改變常是導致生物性狀改變的直接原因。cSNP中約有一半為非同義cSNP。
先形成的SNP在人群中常有更高的頻率,后形成的SNP所佔的比率較低。各地各民族人群中特定SNP並非一定都存在,其所佔比率也不盡相同,但大約有85%應是共通的。
一是遍佈於基因組的大量單鹼基變異;
二是分佈在基因編碼區(coding region) , 稱其為cSNP,屬功能性突變。
SNP在單個基因或整個基因組的分佈是不均勻的:
(1)非轉錄序列要多於轉錄序列
(2)在轉錄區非同義突變的頻率, 比其他方式突變的頻率低得多。
在遺傳學分析中, SNP 作為一類遺傳標記得以廣泛應用, 主要源於這幾個特點:
SNP在人類基因組的平均密度估計為 1\1000 bp , 在整個基因組的分佈達 3×106個,遺傳距離為 2~3cM , 密度比微衛星標記更高, 可以在任何一個待研究基因的內部或附近提供一系列標記。
某些位於基因內部的SNP 有可能直接影響蛋白質結構或表達水平, 因此, 它們可能代表疾病遺傳機理中的某些作用因素。SNP自身的特性決定了它更適合於對複雜性狀與疾病的遺傳解剖以及基於群體的基因識別等方面的研究。
與微衛星等重複序列多態性標記相比, SNP 具有更高的遺傳穩定性。
SNP標記在人群中只有兩種等位型(allele)。這樣在檢測時只需一個“ + \- ”或“全\無”的方式,而無須象檢測限制性片段長度多態性,微衛星那樣對片段的長度作出測量,這使得基於SNP的檢測分析方法易實現自動化。
據估計,人類基因組中每1000個核苷酸就有一個SNP,人類30億鹼基中共有300萬以上的SNPs。SNP 遍佈於整個人類基因組中,可位於基因編碼區、基因的非編碼區以及基因間區(基因和基因之間)。
組成DNA的鹼基雖然有4種,但SNP一般只有兩種鹼基組成,所以它是一種二態的標記,即二等位基因(biallelic)。由於SNP的二態性,非此即彼,在基因組篩選中SNPs往往只需+/-的分析,而不用分析片段的長度,這就利於發展自動化技術篩選或檢測SNPs。
採用混和樣本估算等位基因的頻率是種高效快速的策略。該策略的原理是:首先選擇參考樣本製作標準曲線,然後將待測的混和樣本與標準曲線進行比較,根據所得信號的比例確定混和樣本中各種等位基因的頻率。