數值分類
數值分類
數值分類(numerical classification)是指對實體(或屬性)集合,按其屬性(或實體)數據所反映的相似關係進行的分組,或者說是基於物種分佈或取樣組成的數據,對植物群落或環境因子進行比較客觀的分類,找出物種之間、植被之間,或植被與環境因子之間的相互關係。
數值分類 Numerical phenetics
BIOX.CN 時間:2006-9-5 來源:生命經緯
幾乎任何分類方法都有一部分是按類似性將物件整理歸類。然而從阿丹森以來憑經
驗的分類學家按經驗歸納的加權方法擬定生物學分類(後來達爾文從理論上作過論證)
要求具有相當多的知識和經驗。因而很自然的就會提出這樣的問題,即能不能制訂一種
方法就連毫無經驗的人,一個非生物學家都能按這種方法將物種歸類成“自然的”屬和
高級分類單位。的確,如果有一種不由意志控制的自動而又客觀的方法即使對有輕驗的
分類學家在選擇最佳分類方案時也是有用的。這種方法的基本要點是將類似程度定量比,
使定性的或主觀的分類學轉變成客觀的,數值分類學。
現在還沒有有關數值分類學史的著作。但是這方面的開拓工作可以追溯到19世紀中
葉,雖然當時這些工作大部分涉及種內變異、特別是地理變異。試圖運用數值方法為種、
屬以至更高級分類單位分類的文章指導通常都被淹沒在大量的分類學文獻中,只有極少
數專門家知道。有關這方面的資料可參考SimPson,Roeand Lewontin合著的《數量動物學》(Quantitative Zoology,1960)。
在幾乎完全被遺忘的先驅之中有一位是遺傳學家斯特體範特(A.H.Sturtevant,
1939;1942)。他十分謹慎地避免偏見並將已經知道和適應及發育有關的任何性狀從他
的計算中剔除;在分析果蠅的39個性狀時他能夠把58種果蠅安排在有關的類別中,更重
要的是,他還作出了一些概括,這些概括隨後曾被反覆地證實過。其中第一個概括指出
嚴密的數值方法運用於密切有關的種類時最可靠,但運用在關係疏遠的種類上就容易產
生矛盾的結果。他還設計了一個能顯示不同性狀之間相互關係的圖表並發現其中有些性
狀是“最好的”,因為可以指出其他性狀的大概性質;這也就是說有的性狀是和其他性
狀共(同)變(化)的。
自從電子計算機發明了以後有三個分類學家小組各自獨立地提出運用計算機方法將
類似性數量化並藉助於這種定量法把物種和高級分類單位歸類;這三個小組是美國的C
·D·Michener和R·R·Sokal(1957),英國倫敦的一位細菌學家P·H·A·Sneath
(1957),和英國牛津的A·J·Cain,G·A·Harrison(1958)。他們的提議中最重要
的方面是用計算機的機械操作來代替人腦的綜合(集成)能力(後者在傳統的分類學中
只是通過檢查或列表比較類似性將分類單位歸類)。他們相信這樣一來就能用客觀的而
且一直可以重複的方法代替過去通用的隨意而又主觀的評價。起初這三個小組一致同意
所有的性狀同樣重要,但是,不久Cain和Harrison(196O)發現不同的性狀具有不同的
信息量因而建議“線系加權”(phyletic weighting)。Michener也很快從他的早先建
議上退了下來,但是剩下來的兩位先驅Sokal與Sneath卻聯合起來在1963年出版的經典
著作《數值分類學原理》(Principles of Numerical Taxonomy)一書中介紹了他們的
方法和原理。這書的標題容易引起誤解,辛普森及其它分類學者曾經指出分類學中使用
數值方法已經很久,而且分類學中分歧很大的一些學派都曾用過,因此後來習慣上把
Sokal和Sneath的分類方法稱為“數值表徵(分類)法”(numerical Phenetics)。遺
憾的是,這新方法起初被抬舉得太高後來在某些方面無法兌現。例如,開始時曾聲稱使
用新方法只要分別提供同樣的一組性狀任何兩位科學家完全分開獨立工作就會對兩種生
物的相似性作出完全相同的估價。這種說法顯然是不能實現的,因而在有經驗的分類學
家中間激起了一片反對聲。在該書經過徹底修訂的第二版(1973)中作了很多重要的改
進。關於數值分類學的其它教材還有Jardine and Sibson(1971),Clifford and
Stephenson(1975)。Throckmorton(1968)的書雖然也是討論數值分類,但處理方法
有所不同。
正如達爾文曾經指出的那樣,不同的性狀含有不同的信息量,當選擇不同的性狀組
合時就會產生十分不同的分類。軀體的不同部位,生活史中的不同階段,形態學性狀或
生物化學性狀都會對類似性作出不同的估價。為了誇示他們的客觀性,數值分類學家提
出拋棄種作為分類單位而代之以“運算的分類單位”(operational taxonomic units,
縮寫為OTU),似乎這就是改進。然而事實上這又引起了與導致放棄模式種
(typological species)概念同樣的實際困難。數值分類學家或者是必須將不同的性
別,年齡段和形態看作是不同的OTU,然後將雌、雄以及其它極不相同的表現型分入不
同的分類單位,要不然就必須非常仔細地分析生物學變型(同型種,phena),並將變
型組合成與生物學種相符的OTU。這樣對變異作評價雖然更加逼真,卻恰恰要求主觀判
斷,而這種主觀判斷正是“客觀的”數值分類法所要加以排除的。
傳統分類學家和數值分類學家之間最重要的區別在於他們對加權的態度。對加權的
態度只有三種可能性。第一種是認為一切性狀都是相等的,也就是說在分類中它們同等
重要。雖然數值分類學家將之稱作是“不加權”法,但是這當然是既定的加權方法,即
給每個性狀同等地加權。這和亞里斯多德,切查皮諾以及居維葉的既定加權法一樣容易
引起誤解。海洋無脊椎動物是否有索這一性狀的分類價值比一百個其它性狀的價值都要
高。某些性狀含有大量的關乾親緣關係的信息而其它的則僅僅是“噪音”這一點早在二
百多年以前阿丹森就曾指出過。
涉及加權的第二種可能性是有一套固定的標準(例如生理上的重要性)衡量不同性
狀的相對分類學重要性。這實際上就是亞里斯多德和居維葉的既定加權法。第三種可能
性是憑經驗加權法,這種方法首先將生物安排到表面上看來是自然的類別中(通過對很
多性狀或複合性狀的考慮)。然後對與最自然(最合適)類別看來相關的性狀予以最大
的加權。這就是達爾文的處理辦法,他最後歸納起來這樣說:“一些微不足道的性狀在
分類上的重要性主要取決於它們和其他性狀(多少是重要的)相關”(《物種起源》:
417)。
在全部分類學史中實際上所有有經驗的分類學家都知道而且經常強調不同的性狀具
有多麼不同的分類學價值。以大腦半球結構為主要依據的類人猿和人的分類和以主要生
物高分子(如血紅蛋白等等)為根據的分類將會有所不同。年輕一代的數值分類學家覺
察到各種不同的性狀的信息量差別懸殊,目前正集中力量用客觀的經驗性加權(例如通
過相關分析)來代替直覺的主觀評價。
數值分類學家將許多個別性狀類似程度的總和轉變成單一的總體類似值(Overall
similarity value)或“表徵距離”(Phenetic distance)。然而正如辛普森(1964a)
曾經指出:“一個單一的類似性衡量尺度是以損失大量信息為代價取得的,這裡所指的
信息主要是性狀變化的順序以及差異的來源。”在將高度複雜的實體加以比較時正象把
不同分類單位的複合性狀作比較一樣,根本不宜於將類似性定量化。這就是為什麼數值
分類學曾經被稱為模式方法的原因,也是為什麼辛普森認為數值分類學導致了“分類學
原則的倒退…有意識地恢復了18世紀原則”的原因。
如果數值分類方法能取得實際結果人們往往就可能忽視它概念上的弱點。然而,為
了部分地補償鑲嵌進化(mosaic evolution)以及由於引用了不含信息量的性狀所產生
的“噪音”,數值分類學家便必須為極大數量的性狀(最好是超過一百)編製程序。在
形態上極為複雜的節肢動物(如昆蟲,蜘蛛等)中一般可以找到如此大量的性狀,但是
在絕大多數其他生物中分類學上有用的性狀就極少。單是這一點就妨礙了這種以性狀不
加權為基礎的方法的運用。而且即使在昆蟲中使用這種方法也非常費事,為大量的分類
單位的一百多個性狀編製程序要花費大量時間。由於這個原因數值分類學派的先驅者之
一Michener在為澳大利亞蜂(包含有很多新種)的大量標本分類時便仍然採用了傳統的
分類方法。
現在,在數值分類學的原理首次被提出約莫25年以後,就有可能對這種方法的可行
性和用途作一嘗試性的暫時結論。顯然,一切分類的基本觀點都是表徵(分類)性的,
都是力求確立“類似”實體的類別。這種努力成功與否取決於確定類似性的原理和方法。
在這一方面來說數值分類學由於堅持對性狀同等加權以及完全忽視系統發育因而完全失
敗了。
但是,數值分類學基本原理的失敗並不能作為理由去否定由數值分類學家所首創並
採用的很多數值方法,特別是多變數方法的有效性。數值分類學家首創的這些方法目前
在很多科學領域中已廣泛應用,在數據選擇與分類的一些其他領域中也極其重要。在分
類學中提倡並介紹這些方法應當看作是數值分類學家的最重要貢獻。另外,正象最優秀
的分類學家所一貫支持的那樣,數值分類學家也十分強調運用儘可能多的不同性狀和性
狀系統的原則以便取得新資料。
數值分類法在為大的屬中種的歸類和為前此混淆不清類別的分類中最為有用。另一
方面,在分類已趨於完善的類別中或為目、綱,或門這些層次的分類中還沒有發現數值
分類作出過什麼實質性的貢獻。
數值分類學最有希望的未來發展可能在於進一步發展加權程序。這些程序或者是依
據性狀的相關變異(covariation),或者是以某些經驗性指導原則為根據。由推論而
知的共同祖先的后存幾乎毫無例外地可以由共同具有某些性狀而查知,因而對一些性狀
較之其他性狀予以更大的加權就是一種常識。任何分類方法不運用性狀加權顯然是無效
的。
為了力求“絕對客觀”,數值分類學派完全不考慮任何親緣證據,而與之對立的支
序分類學派(cladistics)的主要特點卻正是以親緣(家系)為基礎.