

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著Web2.0時(shí)代的到來(lái),社區(qū)型問(wèn)答漸漸成為人們?cè)诰W(wǎng)絡(luò)上獲取知識(shí)和信息的必要途徑。相對(duì)于互聯(lián)網(wǎng)搜索引擎而言,社區(qū)型問(wèn)答能夠直接返回用戶(hù)提出的自然語(yǔ)言形式問(wèn)句的答案,而不是需要用戶(hù)自行篩選的檢索結(jié)果列表。相對(duì)于傳統(tǒng)的開(kāi)放域問(wèn)答系統(tǒng)而言,社區(qū)型問(wèn)答中的答案都是由真實(shí)用戶(hù)生成的,其質(zhì)量要高于傳統(tǒng)的開(kāi)放域問(wèn)答系統(tǒng)自動(dòng)地從候選文檔中抽取和生成的答案。同時(shí),由于社區(qū)型問(wèn)答中積累了大量的問(wèn)答對(duì)資源,因此,社區(qū)型問(wèn)答中的核心問(wèn)題和關(guān)鍵技術(shù)體現(xiàn)在檢索相
2、似的已回答問(wèn)句并返回相應(yīng)的答案,我們稱(chēng)之為問(wèn)句檢索。
然而,社區(qū)型問(wèn)答中的問(wèn)句檢索面臨的三個(gè)主要挑戰(zhàn)為:由于用戶(hù)問(wèn)句表述的冗長(zhǎng)性導(dǎo)致的用戶(hù)意圖理解困難;由于用戶(hù)問(wèn)句表述多樣性造成的問(wèn)句之間的詞項(xiàng)不匹配問(wèn)題;由于未能考慮問(wèn)句的社區(qū)屬性而導(dǎo)致問(wèn)句檢索的排序僅僅依靠文本相關(guān)性。因此,在本文中,我們從以下四個(gè)方面來(lái)解決上述三個(gè)關(guān)鍵問(wèn)題,從而在整體上提高社區(qū)型問(wèn)答中問(wèn)句檢索的性能。
本文的第二章提出了基于依存句法關(guān)系圖的詞項(xiàng)重
3、要度賦權(quán)方法,從而解決了社區(qū)型問(wèn)答中用戶(hù)問(wèn)句查詢(xún)的冗長(zhǎng)性問(wèn)題。具體地,對(duì)于已有的基于詞項(xiàng)賦權(quán)的問(wèn)句檢索模型而言,一個(gè)主要的問(wèn)題是在計(jì)算詞項(xiàng)權(quán)重時(shí)忽略了詞項(xiàng)之間的聯(lián)系。為了解決這個(gè)問(wèn)題,我們提出了一種新的利用詞項(xiàng)之間依存句法關(guān)系作為線索的詞項(xiàng)賦權(quán)機(jī)制。對(duì)于給定問(wèn)句,我們首先構(gòu)建依存句法圖來(lái)計(jì)算每個(gè)詞項(xiàng)對(duì)的關(guān)聯(lián)強(qiáng)度,進(jìn)而我們根據(jù)依存關(guān)聯(lián)度來(lái)更新常規(guī)的詞項(xiàng)權(quán)重。我們驗(yàn)證了更新后的詞項(xiàng)權(quán)重能夠有效地整合到已有的問(wèn)句檢索模型中,且實(shí)驗(yàn)結(jié)果相比于已
4、有最新穎的問(wèn)句檢索模型有了顯著的提升。
本文的第三章提出了基于短語(yǔ)復(fù)述的問(wèn)句重構(gòu)模型,提高了問(wèn)句查詢(xún)擴(kuò)展的整體效果。具體地,由于語(yǔ)言表述的多樣性所導(dǎo)致的問(wèn)句檢索中的詞項(xiàng)不匹配現(xiàn)象,已經(jīng)成為社區(qū)型問(wèn)答中亟待解決的問(wèn)題。為了解決這個(gè)問(wèn)題,我們提出了一種基于短語(yǔ)級(jí)復(fù)述方法的問(wèn)句重構(gòu)機(jī)制,從而提高了問(wèn)句檢索的效果。給定一個(gè)問(wèn)句查詢(xún),我們首先結(jié)合語(yǔ)料庫(kù)統(tǒng)計(jì)信息和問(wèn)句內(nèi)部線索的特征來(lái)識(shí)別問(wèn)句中的關(guān)鍵短語(yǔ);接下來(lái),我們通過(guò)融合多個(gè)在線翻譯引
5、擎的翻譯結(jié)果來(lái)進(jìn)行關(guān)鍵短語(yǔ)的復(fù)述抽取;最后,我們提出一種基于解碼算法的問(wèn)句重構(gòu)方法,在融合關(guān)鍵短語(yǔ)的基礎(chǔ)上,生成重構(gòu)問(wèn)句。通過(guò)在社區(qū)型問(wèn)答數(shù)據(jù)集上的問(wèn)句檢索實(shí)驗(yàn)效果的提升,驗(yàn)證了我們所提出的問(wèn)句重構(gòu)算法的有效性,并且在問(wèn)句檢索上顯著優(yōu)于當(dāng)前的最新穎的問(wèn)句檢索模型。
本文的第四章提出了基于主題翻譯及聚類(lèi)模型,實(shí)現(xiàn)問(wèn)句查詢(xún)中詞項(xiàng)的擴(kuò)展。具體地,基于統(tǒng)計(jì)機(jī)器翻譯模型的問(wèn)句檢索模型,其相關(guān)性排序機(jī)制主要依賴(lài)于詞項(xiàng)間的翻譯概率,然而已有
6、的機(jī)器翻譯模型沒(méi)有很好地控制詞項(xiàng)之間的翻譯噪聲,使得當(dāng)前的問(wèn)句檢索模型存在不完善之處。我們提出一種基于主題翻譯及聚類(lèi)模型的問(wèn)句檢索模型,從理論上說(shuō)明,該模型利用主題的推理及主題之間的相似性信息,達(dá)到控制翻譯模型噪聲的效果,從而提高問(wèn)句檢索的結(jié)果。實(shí)驗(yàn)結(jié)果表明,我們提出的模型在MAP、MRR以及p@1等指標(biāo)上顯著優(yōu)于當(dāng)前最新穎的問(wèn)句檢索模型。
本文的第五章提出了問(wèn)句流行度預(yù)測(cè)問(wèn)題,并以此提高用戶(hù)問(wèn)句檢索結(jié)果。具體地,隨著社區(qū)型問(wèn)
7、答的發(fā)展,其上積累了大量高質(zhì)量的問(wèn)答對(duì)資源。這些資源不僅能夠讓用戶(hù)進(jìn)行問(wèn)句檢索的操作,更重要的是允許用戶(hù)之間進(jìn)行交互。在問(wèn)答社區(qū)上面,大多數(shù)研究都是基于問(wèn)句的文本內(nèi)容進(jìn)行問(wèn)句檢索的相關(guān)研究,而很少有研究用戶(hù)個(gè)人信息及交互行為對(duì)問(wèn)句檢索結(jié)果的影響。社區(qū)型問(wèn)答中,問(wèn)句的流行度能夠反映用戶(hù)的關(guān)注、興趣以及交互行為,因此,我們通過(guò)預(yù)測(cè)問(wèn)句的流行度來(lái)改善用戶(hù)在問(wèn)句檢索時(shí)的體驗(yàn)。我們首先通過(guò)對(duì)影響問(wèn)句流行度的因素進(jìn)行分析和建模,以此來(lái)預(yù)測(cè)新問(wèn)句的流
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Web社區(qū)問(wèn)答檢索的關(guān)鍵技術(shù)研究.pdf
- 社區(qū)問(wèn)答系統(tǒng)中問(wèn)句檢索技術(shù)的研究.pdf
- 定義問(wèn)答檢索關(guān)鍵技術(shù)研究.pdf
- 社區(qū)問(wèn)答系統(tǒng)中問(wèn)句推薦技術(shù)的研究.pdf
- 圖像檢索關(guān)鍵技術(shù)研究.pdf
- 圖像中目標(biāo)精細(xì)檢索關(guān)鍵技術(shù)研究.pdf
- 面向問(wèn)答的問(wèn)句關(guān)鍵詞提取技術(shù)研究.pdf
- 圖像檢索關(guān)鍵技術(shù)研究(1)
- XML信息檢索關(guān)鍵技術(shù)研究.pdf
- 博客檢索的關(guān)鍵技術(shù)研究.pdf
- 足球視頻檢索關(guān)鍵技術(shù)研究.pdf
- 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf
- 圖像檢索若干關(guān)鍵技術(shù)研究.pdf
- 網(wǎng)絡(luò)圖像檢索關(guān)鍵技術(shù)研究.pdf
- 基于內(nèi)容圖像檢索關(guān)鍵技術(shù)研究.pdf
- 醫(yī)學(xué)圖像語(yǔ)義檢索關(guān)鍵技術(shù)研究.pdf
- 復(fù)雜網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究.pdf
- Web信息檢索的關(guān)鍵技術(shù)研究.pdf
- Web檢索優(yōu)化的關(guān)鍵技術(shù)研究.pdf
- 定題信息檢索關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論