自動文摘

自動文摘

所謂自動文摘就是利用計算機自動地從原始文獻中提取文摘。

目錄

正文


自動文摘
所謂自動文摘就是利用計算機自動地從原始文獻中提取文摘,文摘 是全面準確地反映某一文獻中心內容地簡單連貫的短文。
自動文摘技術主要有機械文摘和理解文摘兩種。機械文摘能夠適用於非受限域,這符合當前自然語言處理技術面向真實語料、面向實用化的總趨勢,但是由於它局限於對文本表層結構地分析,所以經過近40年的發展已接近技術極限,文摘質量很難再有質的飛躍。理解文摘犧牲領域寬度,換取了理解深度,它作為理論探索的價值很高,但實用性較低,在可預見的未來中前景黯淡。
為了適應大規模真實語料的需要,自動文摘應立足於面向非受域,不斷提高文摘質量。篇章結構屬於語言學範疇,不觸及領域知識,因而基於篇章結構的自動文摘方法不受領域的限制。同時篇章結構比語言表層結構深入了一大步,根據篇章結構能夠更準確地探測文章的中心內容所在,因而基於篇章結構的自動文摘能夠避免機械文摘的許多不足,保證文摘質量。
自動摘錄將文本試為句子的線性序列,將句子視為詞的線性序列。它通常分4步進行:(1)計算詞的權值;(2)計算句子的權值;(3)將原文中的所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們在原文中的出現順序輸出。在自動文摘中,計算詞權、句權、選擇文摘句的依據是文本的6種形式特徵:詞頻、標題、位置、句法結構、線索詞和指示性短語