

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著信息時代的到來,中文信息的自動化處理越來越顯示出其重要價值。然而缺少細致的致力于規(guī)則的句法描寫已成為嚴重制約中文信息自動化處理的瓶頸。句法分析作為自然語言處理中的重點和難點,雖然經過幾十年的研究與發(fā)展,但是當面對大量真實文本的分析時,由于漢語句子的復雜性和靈活性等特點,對漢語句子的完全分析無論在空間上還是在時間上都受到了極大的挑戰(zhàn)。部分句法分析(Partial Parsing)作為近年來出現的一個新的語言處理策略,主要著眼于組塊(c
2、hunk)的識別與分析。盡管部分句法分析的結果并不是一棵完整的句法樹,但各個組塊是完整句法樹的一個子圖(subgraph),只要加上組塊之間的依附關系(attachment),就可以構成完整的句法樹。這樣就使句法分析的任務在某種程度上得到簡化,同時也有利于句法分析技術在大規(guī)模真實文本處理系統(tǒng)中迅速得到利用。
本文以“面向計算機的現代漢語‘得’字研究”為題正基于此,我們希望通過對“得”字結構的識別研究,使之成為完整句法樹的一
3、個子圖,從而最終實現計算機的自動識別。由于純粹從為計算機識別服務的目的出發(fā),立足于面向計算機的自然語言信息處理,我們將研究范圍限定在無論來源、無論讀音、無論詞性,凡字形相同的“得”字均在我們的討論之列。研究重點主要集中在三個方面。
第一,“得”字結構的分布特征研究。在對各類“得”字的句法功能及語義特征進行明確界定的基礎上,對“得”字結構的語體分布特征進行了詳細的描述,并對表現出來的明顯傾向性進行了適當的分析。著重觀察“得”
4、字述補結構中“得”前成分與不同語體的對應關系,以及“得”后不同補語類型在各類語體中的分布情況,并分析其分布狀況及產生對應關系的原因。
第二,“得”字結構的組合特征研究。在對各類“得”字左右鄰接特征分布進行統(tǒng)計的基礎上,結合對“得”字左右鄰接限制特征的調查,對“得1”、“得2”、“得3”、“得4”的左鄰接和右鄰接特征及其限制性特征進行了包括隱性鄰接在內的詳細描述,發(fā)現其鄰接規(guī)律,并就“得”字的左右顯性鄰接共現情況進行觀察和描
5、述;引入“熵”的計算,通過數據的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。
第三,“得”字述補結構的語法及語義分析研究。在借鑒前人研究成果的基礎上,從利于計算機識別與處理的觀點出發(fā),對“得”字述補結構的結構類型,即可能式述補結構和非可能式述補結構,從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結構中補語的結構類型進行分類,確立了非可能式述補結構的結構形式與語法意義的對應關系。
6、 本文研究的創(chuàng)新之處在于:
(1)首次以為計算機識別服務為目的,立足于面向計算機的自然語言信息處理,對現代漢語的“得”字進行包括語體分布特征、左右鄰接特征、語法結構及語義關系等在內的全方位的觀察與研究,借助形式標記的發(fā)掘,實現對不同類型“得”字結構的鑒別,以適應計算機對不同“得”字“理解”的要求。
(2)運用詞匯語法理論,定量統(tǒng)計與定性分析相結合,研究“得”字結構內部成分之間的鄰接關系和共現關系。對顯性的鄰接
7、特征和左右成分共現情況進行了詳細的描述,并對隱性的鄰接特征進行了預測。
(3)在“得”字的鄰接研究中引入“熵”的概念,通過數據的演算進一步說明各類“得”字對左右鄰接詞語所具有的選擇性。同時,也為今后搭配概率的統(tǒng)計分析提供有利的數據支持。
(4)從為計算機的自動識別提供盡可能形式化、可操作的語言學標準的觀點出發(fā),對“得”字述補結構的結構類型,從句法模式到句法成分間的語義選擇進行了明確的界定;并就非可能式述補結構
8、中補語的結構類型進行分類,確立了非可能式述補結構的結構形式與語法意義的對應關系。
(5)建立大規(guī)模的真實文本語料庫,自行標注,為本課題研究奠定了堅實的基礎,保證了研究結果的信度和效度。首次實現了在大規(guī)模的語料庫范圍內采用基于統(tǒng)計的方法對現代漢語“得”字在真實文本中的使用情況進行窮盡性的研究。
(6)自行研制WordParse軟件和 DataWord軟件,完成數據庫建設及數據統(tǒng)計分析,建構前后接續(xù)觀察和統(tǒng)計系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現代漢語介詞習得研究.pdf
- 面向計算的現代漢語明喻句的考察.pdf
- 現代漢語并列四字格及其習得研究.pdf
- 面向二語習得的現代漢語雙音節(jié)輕聲詞研究.pdf
- 現代漢語主題句的習得研究.pdf
- 現代漢語“的”與“得”分合問題研究.pdf
- 現代漢語帶“得”字的程度補語和狀態(tài)補語的糾葛研究.pdf
- 現代漢語“V得”式動詞探究.pdf
- 現代漢語對舉嵌置式四字格習得研究.pdf
- 現代漢語連動句及其習得研究.pdf
- 現代漢語瞬時副詞及其習得狀況研究.pdf
- 現代漢語中動句及其習得研究.pdf
- 現代漢語雙及物構式習得研究.pdf
- 現代漢語副詞“又”的語義及習得研究.pdf
- 面向對外漢語教學的現代漢語“被”字句研究.pdf
- 現代漢語祈使功能問句習得研究.pdf
- 面向對外漢語教學的現代漢語時間副詞研究.pdf
- 面向對外漢語教學的現代漢語介詞“從”研究.pdf
- 面向泰國漢語教學的現代漢語“了”的考察.pdf
- 現代漢語“對”字結構的考察.pdf
評論
0/150
提交評論