引文分析

邏輯方法

引文分析是基於文獻間的聯繫而產生的一種分析方法。具體來說,文獻體系中文獻之間並不是孤立的,而是相互聯繫的。文獻的相互關係突出地表現在文獻的相互引用方面。

方法簡介


引文分析(Citation Analysis)是利用數學及統計學的方法和比較、歸納、抽象、概括等邏輯方法,對科學期刊、論文、著者等各種分析對象的引證與被引證現象進行分析,進而揭示其中的數量特徵和內在規律的一種文獻計量分析方法。引文分析方法的數學基礎是概率論與數理統計。在進行分析比較時,已將其作用排除在測度結果之外了。
科技文獻的引證與其被引證現象進行研究的過程。使用的方法有圖論、模糊集合、數理統計等數學方法和邏輯思維方法,目的在於揭示文獻所蘊含的情報特徵和相關關係。
現代科學論文的一個重要特徵是,在“參考文獻”標誌下依序列出所援引文獻的著錄事項。參考文獻 (被引用文獻)與正文(引用文獻) 的簡單邏輯關係就是引文分析的基礎和背景。致力於引文分析理論和技術研究的文獻學家主要有格羅斯、.布朗等。普賴斯於1956年發表重要著作《科學論文的網路》,為引文分析奠定理論基礎,E.加菲爾德於1953年受法律業務工具書《謝潑德引文》的啟發,於1961~1963編成《科學引文索引》(SCI),使引文分析具備了實用的工具。
引文分析適於探索科學的微觀結構,便於超越時間空間,跨學科組織文獻,同傳統的分類法和主題法截然不同,使文獻有序化,有利於對文獻由表及裡地深入展開分析,更易於量化。
引文分析中還有一些輔助概念,運用也較普遍:①文獻耦合。一篇參考文獻被兩篇文獻引用便構成一個引文偶,引文偶愈多,說明兩篇文獻關係愈密切。②同被引。兩篇論文共同被後來的一篇或多篇論文所引用的現象,其量度是同被引強度,即兩篇(或多篇)文獻同被後來的文獻所引用的頻次,顯然,同被引頻次愈高,兩篇論文相關性愈強。③自引。作者引用自己以前發表的獨撰與合撰論文的現象,自引還可以擴展到雜誌、學科、地區、團體乃至國家對文獻的反身自用。
引文分析主要用於指導編製各種新型檢索工具,為科學管理提供量化的依據,探討科學的結構,評價與選擇期刊,考察科學著作及科學家的社會影響等。關鍵是開發或引進更為有效的分析方法。

類型


從不同的角度和標準來劃分,引文分析方法有著不同的類型。如果從獲取引文數據的方式來看,有直接法和間接法之分。前者是直接從來源期刊中統計原始論文所附的被引文獻,從而取得數據並進行引文分析的方法;後者則是通過“科學引文索引”(SCI)、“期刊引用報告”(JCR)等引文分析工具,查得引文數據再進行分析的一種方法。若從文獻引證的相關程度來看,則有自引分析、雙引分析、三引分析等類型。如果從分析的出發點和內容來看,引文分析大致有三種基本類型:
1.引文數量分析:主要用於評價期刊和論文;研究文獻情報流的規律等。
2.從引文間的網狀關係或鏈狀關係進行研究:科學論文間存在著一種引用關係網,如A被B引, B被C引, C又被A引等。研究這種關係主要用於揭示學科的發展與聯繫,並展望未來前景等。
3.從引文反映出的主題相關性方面進行研究:主要用於揭示科學的結構和進行文獻檢索等。

主要內容


從不同的角度或從各種基本要素出發,對科學引文的分佈結構進行描述和分析,便形成引文分析的基本內容,一般包括:
引文年代分析
一般來說,隨著年度的由遠而近,引文量呈增長趨勢,即時間愈近,被引用的文獻愈多;文獻被利用的峰值是該文章發生以後的第二年。如果以引文年代為橫軸,各年引文量為縱軸,在坐標圖上描繪各年數據點,然後用一條線連接起來,便可得到一條引文年代分佈曲線。通過對該曲線的分析,不僅可以了解被引文獻的出版、傳播和利用情況,而且可以研究科學發展的進程和規律,特別是在文獻老化和科技史的研究中,引文年代分析更是一種廣泛應用的有效方法。
引文量分析
引文量是某一主體對象含有的參考文獻數量。它是引文鏈的基本特徵之一。通過引文數量的分析,不僅可以揭示文獻引證與被引證雙方的相互聯繫,而且還可以從定量的角度反映出主體之間的聯繫強度。如果兩篇論文或兩種期刊之間的引文數量大,就可以認為它們之間的引證強度大,說明其聯繫較緊密。引文量的分佈規律可從下列幾個方面分析:
(1)引文量的理論分佈:我們將一定量的論文的引文量數據進行分析比較,發現其變化規律表現為以平均數為中點,接近中點的頻數最多,離平均數遠的頻數趨於減少,形成中間高兩極低的正態理論分佈。
(2)引文篇數分佈:即每篇研究論文平均佔有的引文篇數的分佈。它不僅反映了論文作者引用文獻的廣度和深度,而且還能說明引文與被引文的學科內容之間的聯繫強度。
集中與離散規律分析
引文分佈的集中性與離散性是相對於一定的測度指標而言的。引文按來源期刊的分佈,引文篇數的頻數以平均數為中心的分佈,引文按年度、語種、文獻類型等的分佈,都表現出這種集中與離散的趨勢。
引文類型分析
科學研究中引用的文獻很廣,有期刊論文、圖書和特種文獻。對被引文獻的類型進行分析,將有利於確定文獻情報搜集的重點。
引文語種分析
引用文獻是由不同語種的文獻構成的。某一語種的文獻被引用量愈大,則說明該語種比較常用和重要。考察和分析引文語種的分佈,對於人們有計劃地引進外文文獻、譯文選題、外語教育等,頗有參考價值。
引文國別分析
對引文的國別分析,特別是各國文獻互引情況的統計分析,可以探明各國互引文獻的狀況,弄清國際文獻交流的數量和流向。

常見特點


廣泛適用性

引文分析的素材是引文與被引文,而引文現象又是普遍存在的。以期刊論文為例,全世界範圍約有90%以上的科學論文附設了引用文獻,平均每篇論文有引用文獻15篇。我國當今88%左右的重要科學論文帶有引用文獻,平均每篇中文科學論文有引用文獻8.9篇,可以說,凡是有引用文獻的地方,引文分析方法就有用武之地,所以,引文分析方法具有廣泛適用性。

簡便易用性

由於引文分析不要求其它先決條件和輔助條件,不需要使用者具有十分專深的知識,研究的深度、廣度可以由自己控制,所以一般的信息人員都可以藉助於這種方法,完成一些有價值的研究課題,解決一些工作中的實際問題。總之,這種方法的使用限制極少,簡便易用,很值得在廣大的信息人員中普及推廣。

功能特異性

由於引文分析方法具有廣泛適用性和簡便易用性的特點,通過一些不太複雜的統計和分析,就可以確定核心期刊、研究文獻老化規律、研究信息用戶的需求特點,甚至可以研究學科結構、評價人才等,我們不能不為其功能而感嘆。

局限


著者引用文獻是一個人為控制的思維和判斷過程,而作為其表現形式的引用文獻,僅僅是宏觀的、表面的測度,受到許多限制因素的影響。
關係上假聯繫的影響
引用文獻的原因多種多樣,兩篇論文可能出於完全不同的原因或從不同的角度引用同一篇早期文獻,一篇可能是引用其方法,另一篇可能是引用其結果,那麼這兩篇文獻在內容上的聯繫就有可能是虛假的。引文有些是發生在前言和篇名中;有些是發生在正文中;有些發生在結論或討論中。在這些情況下,作者對原著的引用內容和程度是不相同的。引文對原著的關係和重要性也各不相同,但在的引文分析中,對它們都是同等看待,不加區分的。這樣也容易造成成假關係。新刊的論文得不到大量引用;小型期刊被引率往往低於大型期刊;引而未用或用而未引的情況也時有發生。文獻引用中的這些現象都會影響引文分析方法的應用和效果。
馬太效應的影響
有的研究者認為,在文獻引用方面也存在著馬太效應的影響。人們往往以“名著”、“權威”作為選擇引文的標準,有的確是出於需要,也有的則是為了裝飾門面,抬高自己論文的身價。一種期刊因為發表名人的文章而為眾人所引用,以至引起連鎖反應,結果其引文率很高。這種馬太效應的心理作用,掩蓋和影響著文獻引用的真實性。

測度指標


一般來說,對科學期刊進行分析時常用的測度指標有五種:即自引率、被自引率、影響因子、引證率與當年指標。在對專業和學科結構進行研究時,除用引證率外,還可用引文耦合和同被引等測度指標。
1.自引率
在引用文獻的過程中,限於主體本身範圍內的引用稱之為“自引”。包括同一類學科文獻的自引、同一期刊文獻的自引、同一著者文獻的自引、同一機構文獻的自引、同一種文獻的自引、同一時期文獻的自引、同一地區文獻的自引。自引率就是對主體本身範圍內文獻引用的次數與主體引用的文獻總數的比值。
2.被自引率:這是被引用現象的一個測度,被自引率就是主體文獻被自引的次數與主體被引用的總次數的比值。它反映出被引用中有多少是被自己引用的。
3.影響因子:主要在研究科技期刊時使用,等於期刊在規定時間內(一般是兩年)論文被引量與可引論文總數之比。
4.引證率:期刊引證率等於該刊中參考文獻量除以期刊載文量。這是衡量吸收文獻能力的一個相對指標。
5.即時指標:這是測度期刊被引用速度的指標,它是期刊某年發表的論文當年被引用的次數,除以該刊這一年所發表文章的總數,是衡量期刊重要性的一種依據。
6.引文耦合:當兩篇文章同時引用一篇或多篇相同的文獻時,這種現象稱引文耦合,這兩篇文獻就具有耦合關係。引文耦合的文獻之間總存在著這樣或那樣的聯繫,其聯繫的程度稱為耦合強度。
7.同被引:當兩篇(多篇)論文同時被別的論文引用時,則稱這兩篇論文具有“同被引”關係,引用它們的論文的多少,即同被引程度,稱為同被引強度。

應用領域


引文分析技術日趨完善,應用不斷擴大,已發展成為文獻計量學的重要方法之一。引文分析方法的應用主要有以下幾個方面:
1.測定學科的影響和重要性:通過文獻引用頻率的分析研究可以測定某一學科的影響和某一國家某些學科的重要性。
2.研究學科結構:通過引文聚類分析,特別是從引文間的網狀關係進行研究,能夠探明有關學科之間的親緣關係和結構,劃定某學科的作者集體;分析推測學科間的交叉、滲透和衍生趨勢;還能對某一學科的產生背景、發展概貌、突破性成就、相互滲透和今後發展方向進行分析,從而揭示科學的動態結構和某些發展規律。
3.研究學科信息源分佈:通過文獻間的相互引證關係,分析某學科(或專業)文獻的參考文獻的來源和學科特性,不僅可以了解該學科與哪些學科有聯繫,而且還能探明其信息的來源及分佈特徵,從而為制定本學科的信息管理方案和發展規劃提供依據。
4.確定核心期刊:引文分析方法是確定核心期刊的常用方法之一。這種方法的主要特點,是從文獻被利用的角度來評價和選擇期刊的,比較客觀。加菲爾德通過引文分析,研究了文獻的聚類規律。他將期刊按照期刊引用率的次序排列,發現每門學科的文獻都包含有其它學科的核心文獻。這樣,所有學科的文獻加在一起就可構成一個整體的、多學科的核心文獻,而刊載這些核心文獻的期刊不過1000種左右。利用期刊引文的這種集中性規律可以確定學科的核心期刊。
5.研究文獻老化規律:有關文獻老化的研究一般是從文獻被利用角度出發的。D.普賴斯曾利用引文分析探討文獻的老化規律。通過對“當年指標”和“期刊平均引用率”的分析,他認為期刊論文是由半衰期絕然不同的兩大類文獻構成的,即檔案性文獻和有現時作用的文獻。科學文獻之間引文關係的一種基本形式是引文的時間序列。對引文的年代分佈曲線進行分析,可以測定各學科期刊的“半衰期”和“最大引文年限”,從而為制定文獻的最佳收藏年限、對文獻利用進行定量分析提供依據。同時,一個學科的引文年代分佈曲線與其老化曲線極為相似。這有力地說明文獻引文分佈反映了文獻老化的規律性。因此,從文獻引用的角度研究文獻老化規律是一種有效的途徑和方法。
6.研究信息用戶的需求特點:利用引文分析方法進行信息用戶研究是一種重要途徑。根據科學文獻的引文可以研究用戶的信息需求特點。一般來說,附在論文末尾的被引用文獻是用戶(作者)所需要和利用的最有代表性的文獻。因此,引文的特點可基本反映出用戶利用正式渠道獲得信息的主要特點,尤其是某信息中心對其所服務的用戶所發表的論文的引文分析,更具有直接的指導意義。通過對同一專業的用戶所發表的論文的大量引文統計,可以獲得與信息需求有關的許多指標,如引文數量、引文的文獻類型、引文的語種分佈、引文的時間分佈、引文出處等。
7.評價人才:在人才評價方面,常採用引文分析方法。這是因為某著者的論文被別人引用的程度可以是衡量該論文學術價值和影響的一種測度,同時,也從科研成果被利用的角度反映了該著者在本學科領域內的影響和地位。因此,引文數據為人才評價提供了定量依據。從對歷年諾貝爾獎金獲得者的論文被引用情況的統計來看,物理學、化學、醫學領域中諾貝爾獎金獲得者中,其論文被引次數最高者(L.D.Landan)為1888次;最低的也有79次(J· H· D· Jensen);只有六名低於 200次。可見,這些科學界的精英的論文的引用次數是很高的。