【自動索引法】 AutomaticIndexing
【辭書名稱】圖書館學與資訊科學大辭典
自動索引法是研究如何運用電腦,自動地由文獻中找出代表該文獻之索引語彙(IndexTerm)方法。
一般在從事文獻索引編製的方法上,可以分成給予式索引法(AssignmentIndexing)及截取式索引法(ExtractionIndexing)三大類。
前者在文獻分析完之後,必須要依據索引典(Thesaurus)的標準語彙給予文獻索引語,而後者則直接截取文獻的用字作為文獻的索引詞彙。
目前自動索引之研究,大都是利用截取式索引法作為研究的主要方向。
自動索引法的研究,可以追溯自1950年代電腦出現時。
當時美國的資訊科學家們,著手將整篇英文文獻輸入電腦,讓電腦自動計算該文獻每個英文單字出現之次數,然後將計算結果與剔除字(Stoplist)相比對,去除類似"of"、"the"、等不具任何意義的英文介詞,冠詞,連接詞等,剩下的語彙再依照出現總數之多寡由大而小排序。
最後再從這樣的序列當中,直接截取所需要的字彙,作為該文獻的索引詞彙。
此種自動索引法是假定文獻中,重覆出現的語彙頻率越高,其與文獻的主題相關度亦越高,因此該語彙越適合作為索引用語。
例如本篇文章出現次數最多的詞彙可能是索引,由此可以推論出本篇文章必然與索引的主題有關,故索引可直接作為本篇之索引語彙。
從文獻中自動截取索引語彙的方法,除了上述絕對頻率(AbsoluteFrequency)的計算方式外,還有相對頻率計算法(RelativeFrequency),位置加權計算法及構句法(Syntactic)等。
這些不同的計算方式,無非是要突顯文獻中重要的詞彙,以使截取出來的索引語彙更具有代表性。
使用給予式索引的自動索引方法仍在實驗中,但較截取式索引法困難。
其方法是必須將整套索引典,按一定的語意結構輸入電腦內,使語意相關的字彙能聯結在一起。
當電腦自文獻中,截取出語彙之後,還需透過中間轉換程式,將截取語彙轉成索引典上之標準語彙。
目前此種方式的索引法,主要用作印製書本的索引。
現今自動化索引系統,並非完全自動化。
多數索引編製作業方式,初步先透過電腦的計算分析,找出該文獻可能的索引詞彙,再經由索引專家逐一檢視這些索引詞彙是否恰當,必要時予以補充電腦無法給予的索引語彙,或將重覆之語彙切除或修改。
因此自動索引系統之發展,在尚未完全成熟前,只能作為索引專家編製文獻索引時之電腦輔助工具。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|