文本分類中基于k-means的特征選擇算法研究.pdf_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、21世紀以來信息技術的迅速發(fā)展,使互聯(lián)網(wǎng)逐漸地成為一個巨大的信息體。面對海量的數(shù)據(jù),我們?nèi)绾螌@些數(shù)據(jù)進行管理與組織,并且高速準確的從中找出有價值的內(nèi)容成為現(xiàn)在信息科學技術領域的一大難題,文本分類技術是解決這些難題的主要技術之一,存在很大實用價值,得到廣泛專注。它的實現(xiàn)包括了多種技術,特征選擇是文本分類中一個重點技術,它對于提高運算速度,減少運算復雜性和提升分類效率有重要意義,本文主要對文本分類中的特征選擇算法進行研究。
  特征

2、選擇算法主要分為過濾型方法(Filter)和包裝型(Wrapper)方法兩類。Filter方法通用性強,運行時間復雜度低,但由于獨立于分類學習算法,準確率低。Wrapper方法分類準確率高,但計算代價較大,通用性差。常常將兩者結合使用,優(yōu)劣勢相互補。常用IG,MI,ECE和CHI這幾種Filter型方法進行特征選擇,再結合 Wrapper方法對其進行驗證。這些方法都是先構造一個評估函數(shù),用其對原始特征集合中每一個特征進行計算,并對權值的

3、大小進行排序,選取前n個權值大的特征。在中文文本分類中,特征空間的維數(shù)遠大于英文文本的特征空間,所以大規(guī)模的統(tǒng)計計算將會花費巨大的計算成本。
  本文提出一種新的特征選擇算法,該方法不需要構造評估函數(shù),利用k-means聚類的原理來進行特征選擇,大大降低特征選擇時間。采用根據(jù)最大最小原則改進的k-means算法,解決初始化樣本的隨機選擇問題,再結合Wrapper方法用分類器性能對選擇的特征子集進行評價。在實驗中研究討論 k-mea

4、ns方法中兩種距離的計算方法,即歐氏距離和余弦距離計算文本相似度對算法的影響,結果表明用 k-means算法原理進行特征選擇時余弦距離更適合應用于文本相似度的計算。同時研究討論不同語料庫上k-means特征選擇方法中簇心k的取值和每個簇心中選擇的特征數(shù)v的的最佳取值,由于中英文語言的差異性,k與v的最佳取值與所選取的語料庫的種類和規(guī)模有很大關系。
  進一步在文本分類實驗中研究新方法和IG,MI,ECE這幾種常用特征選擇方法與文檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論