【自動摘要】 AutomaticAbstract
【辭書名稱】圖書館學與資訊科學大辭典
自動摘要(AutomaticAbstract)是研究如何利用電腦,自動從文獻中找出重要而具代表性的關鍵詞句,以組織成該文獻的摘要稱之。
美國人魯恩(H.P.Luhn)首先於1958年提出此一構想。
方法如下:(一)將整篇文章輸入電腦內,轉成機讀格式。
(二)去除文章中所有不具意義的非關鍵字,例如AND,OR,THE,A等英文介詞,冠詞,連接詞等列為剔除字(Stoplist)。
(三)逐次計算剩餘字彙出現的個數,並按出現總數大小排序。
(四)將出現總數超過X次以上之字彙,列為高頻率字彙(HighFrequency)或重要語彙(SignificantWords)。
(五)以這些高頻率字彙為基礎,找出含有這些高頻率字彙的句子。
凡在同一句子內,2個高頻率字彙的間隔不超過4個字以上,就稱為一個字群(Cluster)。
(六)計算每個句子字群之顯要因素值(SignificanceFactor)。
顯要因素值之計算公式如下:(字群中高頻率字彙個數)2顯要因素值=────────────字群中字彙之總個數(七)句子的重要性便是依據個別字群之顯要因素值之總和,或是以最大的顯要因素值代表之。
然後逐一將句子挑選出來形成摘要。
此自動摘要法又可稱為關鍵摘要法(KeyMethod)。
除此之外,一般常用的方法尚有以下幾種:(一)提引摘要法(CueMethod):一個句子當中,某些字彙極具代表性,對於整篇文章具有極佳的指引作用。
因此若能在電腦內建立一套提引字典(CueDictionary),將這些字彙給與正負加權數,去比對並計算句子內每個單字之積分,便可以找出重要的句子。
(二)題名摘要法(TitleMethod):此法基本假定凡文章篇名或副篇名的字彙,均可作為提示文章內容的指標。
句子的顯要因素值之計算,便是以句子內包含有這些字之個數計算而得。
(三)位置摘要法(LocationMethod):主要是以句子出現的位置予以加權計算。
特別是文章段落的主題句(TopicSentence);
文章的第一段及最後一段;
一篇文章的開頭簡介及結論部分,都比其他位置之句子重要。
以上幾種自動摘要的方法,主要為將文章的句意以不同的方式,轉換成電腦可以計算與比較的顯要因素值,然後自動組成文章的摘要。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|