Web實體間關系發(fā)現.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯網技術飛躍性的發(fā)展,Web上的網站數量和網頁數量正以指數級的速度快速增長。Web已經成為一個擁有海量數據,數據類型多樣,數據結構各異巨大的數據源。Web數據集成系統通過有效整合來自不同Web數據源的數據,為諸如市場情報分析、輿情分析、商業(yè)智能等分析應用提供重要的高質量的數據支撐?,F有的Web數據集成系統中,僅僅包含了Web實體的基本信息,而實體間的豐富的關聯信息沒有被充分的挖掘。實體之間豐富的關聯信息,和準確的標記,能夠更加完善

2、的描述實體間的相互關系,對搜索引擎、智能問答、市場情報分析等系統提供數據支持,使搜索引擎返回的檢索數據更加精準,豐富智能問答和市場情報分析等系統的知識庫,幫助完善分析和推理的各種結果。然而,目前Web數據集成系統采集的數據主要來源于數據量大、質量相對較高的Deep Web站點,并將它們整合成具有統一模式的結構化數據。在海量的Web數據背景下,Web數據集成系統所提供的數據存在以下局限性:
  1.Web數據集成系統中的實體之間關聯

3、信息缺乏,Web數據集成系統的數據采集于有限的數據源,而且這些數據源大多數都是結構化數據源,使得僅僅通過數據集成系統很難挖掘出來Web實體間有意義的關聯信息。
  2.對于已發(fā)現的實體間的關系,現有的關系標記方法往往利用復雜的方法,計算量大,對于一些實時系統而言是無法接受的,進行準確和高效的關系標記也成為Web數據集成系統中完善實體間信息的一個重要問題。
  本文以挖掘Web數據集成系統中實體關系信息、提供實體全面而豐富的信

4、息為目標,針對Web數據集成系統中實體關系發(fā)現以及實體關系標注問題展開研究,主要貢獻如下:
  1.本文提出一種基于聚類和向量屬性消減的實體語義關系發(fā)現算法。該方法在保證語義關系發(fā)現準確率的前提下,發(fā)現實體間同時存在的多重關系。
  該方法使用搜索引擎獲得到的外部文檔以及Web數據集成系統中實體信息,為實體間關系構造特征向量,通過一次聚類過程以及一次向量屬性消減過程,發(fā)現實體間的關系,在向量屬性消減過程中,該方法發(fā)現實體間的

5、多重語義關系。
  2.本文提出一種基于集成學習對實體關系進行標記的方法。該方法通過提高Web數據集成系統中兩實體關系相似性判定的準確率,來對實體關系進行標注。同時,該方法減小了相似性計算的花費,對實體顯式關系進行標注。
  該方法將四種實體關系相似性判定方法使用集成學習的方法進行集成,特別的對于SVM方法,該方法對其在計算方面進行優(yōu)化,使得不用為每個實體對之間的關系訓練一個特殊的SVM,而是選取Web數據集成系統中用戶最為

6、關注的多個關系作為候選,在這些關系中對實體關系進行匹配,進而計算實體關系間的相似性。通過實體關系之間的相似性,對實體關系進行標記。實驗結果表明,該方法提高了實體關系間的相似性判定準確率,進而提高了關系標注的準確率,同時能夠很好地降低相似性判定的計算花費。
  3.本文提出了一種基于兩階段聚類的實體隱式關系挖掘算法。該算法使用搜索引擎返回的結果文檔,挖掘并標記Web數據集成系統中相關實體之間的語義關系。
  該方法使用大量的外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論