

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),隨著數(shù)字化技術(shù)的快速發(fā)展,數(shù)據(jù)量以驚人的趨勢(shì)迅猛增長(zhǎng),數(shù)據(jù)顯現(xiàn)出多樣化的改變,網(wǎng)絡(luò)技術(shù)的日新月異也使得原本相隔萬(wàn)里的數(shù)據(jù)關(guān)聯(lián)越來(lái)越緊密。傳統(tǒng)的數(shù)據(jù)管理技術(shù)在過(guò)去的幾十年中為數(shù)據(jù)管理做出了極大的貢獻(xiàn),但由于數(shù)據(jù)新特點(diǎn)的出現(xiàn),使得傳統(tǒng)的數(shù)據(jù)管理技術(shù)在面對(duì)日益復(fù)雜多變的數(shù)據(jù)時(shí)顯得捉襟見(jiàn)肘。在這種情況下,人們?cè)噲D尋求一種全新的數(shù)據(jù)管理技術(shù)以滿足日漸豐富的數(shù)據(jù)管理需求——數(shù)據(jù)空間(dataspace)。
數(shù)據(jù)空間是一個(gè)新興的研究
2、領(lǐng)域,許多關(guān)鍵技術(shù)還有待于深入研究。本文著重研究了數(shù)據(jù)空間中的數(shù)據(jù)集成若干關(guān)鍵問(wèn)題。數(shù)據(jù)集成是為了解決異構(gòu)數(shù)據(jù)、分布式數(shù)據(jù)的管理與共享而提出的,數(shù)據(jù)空間在本質(zhì)上也是為了解決這個(gè)問(wèn)題,但集成對(duì)象、集成方法等與傳統(tǒng)數(shù)據(jù)集成技術(shù)有很大區(qū)別。數(shù)據(jù)空間的數(shù)據(jù)集成根據(jù)包裝器提取數(shù)據(jù)源的數(shù)據(jù)信息。首先,需要將數(shù)據(jù)信息與數(shù)據(jù)空間的主體進(jìn)行相關(guān)度評(píng)估,通過(guò)相關(guān)度決定是否將該數(shù)據(jù)信息存儲(chǔ)到數(shù)據(jù)空間中;其次,由于數(shù)據(jù)空間不僅存儲(chǔ)數(shù)據(jù)信息,還存儲(chǔ)數(shù)據(jù)間的關(guān)系信
3、息,因此數(shù)據(jù)空間集成需要對(duì)相關(guān)度較高的數(shù)據(jù)信息進(jìn)行關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)和提取;最后,通過(guò)匹配數(shù)據(jù)空間的模式確定數(shù)據(jù)所屬的模式,然后將滿足相關(guān)度的數(shù)據(jù)信息及其關(guān)系信息存儲(chǔ)到數(shù)據(jù)空間中。因此,數(shù)據(jù)空間中數(shù)據(jù)集成的關(guān)鍵問(wèn)題具體有相關(guān)度評(píng)估、數(shù)據(jù)關(guān)系發(fā)現(xiàn)和模式的建立等。由于人的因素對(duì)數(shù)據(jù)空間起到了舉足輕重的作用,所以在這三個(gè)數(shù)據(jù)空間集成的研究問(wèn)題中加入人為因素的存在,會(huì)使得本文的研究更具實(shí)際意義。
根據(jù)以上分析,本文對(duì)下列幾個(gè)方面的工作進(jìn)行
4、了深入的研究:
1)提出了基于操作行為的相關(guān)度算法。首先,本文對(duì)使用者操作行為的采集進(jìn)行了深入的研究,通過(guò)分析使用者的操作行為,提出了操作行為采集算法用于采集使用者的操作行為信息,并通過(guò)Vertical模型將操作行為信息形成信息集;其次,研究了核心詞集的提取,給出了操作行為間關(guān)聯(lián)程度的評(píng)價(jià)方法及訪問(wèn)信息間關(guān)聯(lián)程度的評(píng)價(jià)方法,通過(guò)將操作行為的關(guān)聯(lián)、訪問(wèn)信息的關(guān)聯(lián)及核心詞頻率進(jìn)行結(jié)合,提出了基于CTFS的核心詞權(quán)重評(píng)價(jià)方法用于提取
5、核心詞集;再次,在提取核心詞集研究的基礎(chǔ)上,提出了基于路徑長(zhǎng)度、發(fā)生頻度及語(yǔ)義內(nèi)容的PFC數(shù)據(jù)相關(guān)度算法;最后,在PFC算法的基礎(chǔ)上,本文還給出了數(shù)據(jù)質(zhì)量的評(píng)價(jià)算法,用于數(shù)據(jù)空間的查詢排序等服務(wù)。實(shí)驗(yàn)對(duì)核心詞的提取、數(shù)據(jù)相關(guān)度及數(shù)據(jù)質(zhì)量進(jìn)行了檢驗(yàn)分析,實(shí)驗(yàn)結(jié)果證明,本文提出的算法具有很強(qiáng)的實(shí)用性及有效性。
2)提出了基于主體特征的關(guān)系發(fā)現(xiàn)方法。數(shù)據(jù)空間中數(shù)據(jù)的關(guān)聯(lián)分為顯性關(guān)聯(lián)和隱性關(guān)聯(lián),本文對(duì)顯性關(guān)聯(lián)的發(fā)現(xiàn)進(jìn)行了研究,并通過(guò)在
6、顯性關(guān)聯(lián)的基礎(chǔ)上引入主體特征研究了隱性關(guān)聯(lián)的發(fā)現(xiàn)。在顯性關(guān)聯(lián)研究部分,首先,通過(guò)5-ary對(duì)數(shù)據(jù)原子進(jìn)行了描述,給出了數(shù)據(jù)原子屬性重要程度的度量方法用于提取重要的屬性作為核心詞;其次,提出了CWD模型,并定義了具有同一核心詞的數(shù)據(jù)原子集作為提取數(shù)據(jù)原子關(guān)聯(lián)的數(shù)據(jù)集;最后,定義了群體類(lèi)別及其關(guān)聯(lián),并結(jié)合具有同一核心詞的數(shù)據(jù)原子集給出了基于數(shù)據(jù)原子集、群體類(lèi)別及群體類(lèi)別關(guān)聯(lián)(DCR)的顯性關(guān)聯(lián)發(fā)現(xiàn)方法。在隱性關(guān)聯(lián)研究部分,本文給出了基于主體
7、特征的支持度和可信度的進(jìn)一步定義,使支持度和可信度被主體特征所影響;然后,在顯性關(guān)聯(lián)的基礎(chǔ)上,通過(guò)結(jié)合基于主體特征的支持度和可信度生成的頻繁項(xiàng)集,給出了數(shù)據(jù)原子間隱性關(guān)聯(lián)的發(fā)現(xiàn)方法。實(shí)驗(yàn)部分驗(yàn)證了屬性的變化、群體類(lèi)別關(guān)聯(lián)的變化及基于主體特征的頻繁項(xiàng)集對(duì)數(shù)據(jù)原子關(guān)聯(lián)的影響。
3)提出了一種基于信息差異的數(shù)據(jù)空間模式提取方法,該方法可幫助用戶快速、準(zhǔn)確地了解數(shù)據(jù)空間的結(jié)構(gòu)。首先,本文提出使用PageRank網(wǎng)頁(yè)排序算法計(jì)算節(jié)點(diǎn)的重
8、要性,并在分析了模式節(jié)點(diǎn)在模式圖中的連通性以及在數(shù)據(jù)圖中的分布頻度對(duì)節(jié)點(diǎn)重要性影響的基礎(chǔ)上,提出了選取首要節(jié)點(diǎn)的方法;其次,通過(guò)對(duì)節(jié)點(diǎn)產(chǎn)生的信息改變量差異ICD進(jìn)行計(jì)算和分析,提出了基于信息差異的偏好值,該偏好值可用于提取模式的候選節(jié)點(diǎn)集;再次,通過(guò)分析數(shù)據(jù)空間模式分塊的特點(diǎn),將模式分塊與社團(tuán)構(gòu)建結(jié)合起來(lái),使用基于邊介數(shù)的模式分塊算法SPIP算法,對(duì)模式圖中的節(jié)點(diǎn)進(jìn)行分塊,并使用模塊度函數(shù)來(lái)度量分塊的質(zhì)量;最后,給出了完整的模式提取流程
9、。實(shí)驗(yàn)首先比較了本文的分塊算法與經(jīng)典的貪婪分塊算法,證明了本文提出的方法在效率及準(zhǔn)確度上均優(yōu)于貪婪分塊算法;實(shí)驗(yàn)的另一部分比較了不使用模式與使用模式的三種情況下的查詢效率,結(jié)果證明,使用模式可提高查詢效率,減少查詢消耗。
綜上所述,本文對(duì)數(shù)據(jù)空間集成中數(shù)據(jù)相關(guān)度、關(guān)聯(lián)關(guān)系發(fā)現(xiàn)及模式提取進(jìn)行了深入的研究。對(duì)于數(shù)據(jù)與主體的相關(guān)度,本文通過(guò)對(duì)使用者操作行為的分析研究給出了數(shù)據(jù)的相關(guān)度算法PFC算法;對(duì)于關(guān)系發(fā)現(xiàn),本文給出了基于DCR
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物學(xué)數(shù)據(jù)集成若干關(guān)鍵問(wèn)題研究.pdf
- Web數(shù)據(jù)集成中數(shù)據(jù)清洗的關(guān)鍵問(wèn)題研究.pdf
- Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究.pdf
- 時(shí)間序列數(shù)據(jù)挖掘若干關(guān)鍵問(wèn)題研究.pdf
- 閃存數(shù)據(jù)庫(kù)若干關(guān)鍵問(wèn)題研究.pdf
- 數(shù)據(jù)流概要與數(shù)據(jù)流分析若干關(guān)鍵問(wèn)題研究.pdf
- 高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究.pdf
- 集成學(xué)習(xí)中若干關(guān)鍵問(wèn)題的研究.pdf
- 生物信息數(shù)據(jù)挖掘若干關(guān)鍵問(wèn)題研究與應(yīng)用.pdf
- 異構(gòu)數(shù)據(jù)交換平臺(tái)中若干關(guān)鍵問(wèn)題研究.pdf
- 大空間樓蓋若干關(guān)鍵問(wèn)題的研究.pdf
- 微博數(shù)據(jù)分析中的若干關(guān)鍵問(wèn)題研究.pdf
- 數(shù)據(jù)中心建筑設(shè)計(jì)中的若干關(guān)鍵問(wèn)題研究.pdf
- 大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關(guān)鍵問(wèn)題研究.pdf
- 網(wǎng)格數(shù)據(jù)庫(kù)關(guān)鍵問(wèn)題研究.pdf
- 子空間SKYLINE查詢?nèi)舾申P(guān)鍵問(wèn)題的研究.pdf
- 數(shù)據(jù)集成技術(shù)若干問(wèn)題研究.pdf
- WSN--MEs數(shù)據(jù)收集關(guān)鍵問(wèn)題研究.pdf
- 數(shù)據(jù)集成中若干問(wèn)題的研究.pdf
- 網(wǎng)格環(huán)境下數(shù)據(jù)管理關(guān)鍵問(wèn)題研究.pdf
評(píng)論
0/150
提交評(píng)論