領域自適應的弱指導信息抽取關鍵技術研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著科學技術的快速發(fā)展,互聯網的廣泛普及,信息量極大豐富,知識的增長與更新速度日益加快,如何快速獲取感興趣的信息成為人們關注的話題。信息抽取的任務是直接從非結構化/半結構化的自然語言文本中抽取關鍵信息,以一種結構化的形式呈現,方便人們快速獲取關鍵信息。作為從文檔中直接獲取重要信息的手段,信息抽取已經逐漸成為多種自然語言處理任務的支撐技術。其中,領域資源獲取、術語抽取、共指消解以及關系抽取等關鍵技術是信息抽取的主要任務和研究熱點。

2、  傳統(tǒng)的信息抽取方法依賴于大量人工選擇和標注的領域語料,根據不同的術語種類和預先定義的關系類型確定抽取對象,針對不同的抽取對象標注訓練語料,選擇不同的機器學習算法進行訓練以實現特定領域術語和特定類型關系的抽取,從而完成對目標領域關鍵信息的抽取。然而該過程不可避免的需要大量的人工參與,難以滿足異質的海量信息處理和快速的信息更新的需求。本文旨在探索領域自適應的弱指導信息抽取的途徑,提高信息抽取的自動化程度和領域適應性。對領域資源獲取、術語

3、抽取、共指消解、關系抽取等關鍵技術進行研究:
  1.基于內容與鏈接分析的領域資源獲取。領域資源獲取是信息抽取的首要步驟,互聯網上具有足夠豐富的信息,如何獲取領域相關性強、可信度高的資源作為領域語料是具有自適應性的信息抽取技術的首要任務。本文通過分析鏈接結構和文本內容,提出基于內容的方法過濾垃圾信息,采用鏈接分析的方法發(fā)現重要的信息源,從而實現高質量領域資源的獲取。
  2.基于指示詞的術語抽取。術語是對領域知識進行描述的最

4、基本單元,傳統(tǒng)的術語抽取方法通過歸納術語本身的不同特點并根據其在不同領域語料中出現頻度的差異進行術語抽取,本研究著眼于術語前后具有領域獨立性且易于識別的指示性詞語,通過識別穩(wěn)定的指示詞進行不同領域的術語候選抽取,并采用鏈接分析的方法計算術語與句子間的相關程度進行術語驗證。與現有方法依賴于領域知識不同,本研究著眼于無需領域知識的弱指導術語抽取方法,為實現領域自適應的信息抽取方法奠定基礎。
  3.基于內外部相似度計算的共指消解。來自

5、不同信息源的信息在描述同一事物時可能采用不同表達方法,共指消解是將不同的表達方式映射到特定實體的過程,高性能的共指消解是正確抽取關鍵信息的基礎。本文利用內部詞形和讀音信息以及外部上下文信息,通過相似度計算進行無指導的跨文檔共指消解,從而實現實體抽取。該方法不需要任何訓練過程和任何先驗領域知識,能夠方便的應用于不同領域。本研究中,共指消解的目的是實現領域術語到實體的映射,因此術語中的名詞和名詞短語作為輸入。對給定的術語集合,通過計算每對術

6、語間的讀音相似度和上下文相似度,綜合考慮每對術語兩方面的相似程度信息確定它們是否指示同一實體。
  4.自底向上的關系類型及實例抽取。術語抽取獲取了最基本的領域信息,共指消解找到了術語和概念、實例間的映射關系,通過關系抽取獲取概念以及實例間的關系則完成了對關鍵信息的挖掘和表述。關系抽取的任務在于識別實體間不同的語義關系從而準確地描述關鍵信息,因此關系抽取是本研究的重要組成部分。傳統(tǒng)的關系抽取方法需要人為設計抽取模板和關系類型等,然

7、后在此基礎上抽取特定類型關系,使得信息抽取的自動化程度受到制約。關系類型的自動獲取將大大提高信息抽取的自動化程度和應用范圍,是本文的重要研究內容。本文將在不依賴于預先定義關系類型的情況下,采用自底向上的規(guī)約和聚類的方法自動獲取關系類型并抽取關系實例。
  5.信息抽取技術與相關應用的結合。信息抽取可廣泛地應用于各種信息智能處理任務中,本課題選取本體自動構建作為應用任務,本體構建的目的是更好地組織和表示知識,為信息檢索、知識工程等智

8、能處理任務提供指導?,F有研究中大多采用人工構建的普通領域的本體作為相關任務的先驗知識。本研究將信息抽取與本體自動構建任務緊密結合,通過弱指導或無指導的信息抽取方法自適應的構建領域本體,作為領域知識服務于其它自然語言處理任務中,既是對信息抽取方法應用于具體任務的探索,同時也是間接評價信息抽取方法的有效途徑。
  綜上所述,本文主要貢獻在于探索在領域資源有限的情況下采用弱指導的方法有效進行信息抽取的途徑,提高信息抽取的性能并降低對領域

9、資源的依賴程度,使得方法具有良好的領域自適應性。采用弱指導或無指導的方法從Web上獲取領域語料,從待處理語料中直接挖掘特征信息,避免對大規(guī)模標注語料的依賴,解決人工標注的領域資源匱乏的問題。通過消解和規(guī)約的方法自動獲取實體和關系類型,使得該方法能廣泛的應用于不同領域且具有良好的領域自適應性。將信息抽取與本體自動構建應用任務有機結合,通過相關任務進一步檢驗信息抽取的性能。通過以上方法和途徑,實現領域自適應的信息抽取,解決傳統(tǒng)技術所面臨的自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論