

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自古以來(lái),人們不斷積攢著各個(gè)不同領(lǐng)域的數(shù)據(jù),而近些年隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,數(shù)據(jù)的接收和存儲(chǔ)變得極其簡(jiǎn)單快捷,導(dǎo)致海量的數(shù)據(jù)快速積累,如何從這海量數(shù)據(jù)中取得有效信息則成為了現(xiàn)今亟待解決的問(wèn)題。數(shù)據(jù)挖掘,作為從海量數(shù)據(jù)中獲得有用信息的數(shù)據(jù)分析技術(shù),應(yīng)運(yùn)而生,此技術(shù)的發(fā)展有效提高了大量閑置數(shù)據(jù)的利用率,對(duì)未來(lái)發(fā)展具有極高的指導(dǎo)意義。
分類任務(wù),即確定對(duì)象屬于哪一預(yù)定義目標(biāo)類,在數(shù)據(jù)挖掘中是最常見(jiàn)和最重要的技術(shù)。至今,分類技術(shù)
2、的發(fā)展已進(jìn)入較成熟階段。傳統(tǒng)的分類方法大多數(shù)是基于均衡數(shù)據(jù)集的,即基于數(shù)據(jù)類別分布大致相同,誤分類代價(jià)大致相同的數(shù)據(jù)集。而現(xiàn)實(shí)的分類問(wèn)題中存在很多類別非均衡的情況,如信用卡欺詐檢測(cè)、醫(yī)療診斷、信息檢索和文本分類等,數(shù)據(jù)集中某個(gè)類別的樣本數(shù)可能會(huì)遠(yuǎn)多于其他類別。在這些情況下,分類器通常會(huì)傾向于將測(cè)試樣本全部歸類為多數(shù)類而忽視少數(shù)類樣本,這將導(dǎo)致得到的分類器在少數(shù)類樣本上效果很差。
非平衡數(shù)據(jù)集自身的特點(diǎn)以及傳統(tǒng)分類算法的局限
3、性是對(duì)非均衡數(shù)據(jù)集進(jìn)行準(zhǔn)確可靠分類的關(guān)鍵制約因素。因此,非均衡數(shù)據(jù)集的分類問(wèn)題已逐漸成為機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域中的研究熱點(diǎn)。
基于非均衡數(shù)據(jù)分類的重要性,本文提出了兩種解決方案:
1)基于主動(dòng)學(xué)習(xí)SMOTE的非均衡數(shù)據(jù)分類:少數(shù)類樣本合成過(guò)采樣技術(shù)(SMOTE)是一種著名的重采樣方法,但它會(huì)帶來(lái)噪音等問(wèn)題,影響分類精度。為解決此問(wèn)題,本文提出一種基于主動(dòng)學(xué)習(xí)SMOTE的非均衡數(shù)據(jù)分類方法ALSMOTE。提出的
4、ALSMOTE方法采用基于距離的主動(dòng)選擇最佳樣本的學(xué)習(xí)策略,并與支持向量機(jī)相結(jié)合,改進(jìn)了SMOTE方法的局限性。實(shí)驗(yàn)結(jié)果表明,該方法有效提高了非均衡數(shù)據(jù)的分類準(zhǔn)確率。
2)基于集成的非均衡數(shù)據(jù)分類主動(dòng)學(xué)習(xí)算法:當(dāng)前,處理類別非均衡數(shù)據(jù)采用的主要方法之一就是重采樣,主要包括過(guò)取樣和欠取樣,然而過(guò)取樣和欠取樣都有自己的不足,本文提出了拆分集成主動(dòng)學(xué)習(xí)算法SBAL(Split-Boost Active Learning),該算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于主動(dòng)半監(jiān)督學(xué)習(xí)的不均衡數(shù)據(jù)集分類問(wèn)題的研究.pdf
- 基于非均衡數(shù)據(jù)分類的高速網(wǎng)絡(luò)入侵檢測(cè)研究.pdf
- 基于非均衡數(shù)據(jù)分類方法的虛假評(píng)論檢測(cè)研究.pdf
- 基于主動(dòng)學(xué)習(xí)的數(shù)據(jù)流分類器研究.pdf
- 非均衡分類的集成學(xué)習(xí)應(yīng)用研究.pdf
- 基于主動(dòng)學(xué)習(xí)的非實(shí)驗(yàn)蛋白數(shù)據(jù)挖掘方法研究.pdf
- 非均衡醫(yī)學(xué)數(shù)據(jù)的特征選擇與分類.pdf
- 基于主動(dòng)學(xué)習(xí)的圖像分類研究.pdf
- 基于主動(dòng)學(xué)習(xí)的情感分類方法研究.pdf
- 基于集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類問(wèn)題的研究.pdf
- 非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用.pdf
- 基于主動(dòng)學(xué)習(xí)的SAR圖像分類方法研究.pdf
- 基于SVM主動(dòng)學(xué)習(xí)的音樂(lè)分類.pdf
- 不均衡數(shù)據(jù)分類方法的研究.pdf
- 面向噪聲數(shù)據(jù)的組合分類及主動(dòng)學(xué)習(xí)算法研究.pdf
- 基于圖數(shù)據(jù)的主動(dòng)學(xué)習(xí)方法的多標(biāo)簽分類研究與應(yīng)用.pdf
- 基于主動(dòng)學(xué)習(xí)的多標(biāo)簽圖像分類方法研究.pdf
- 面向在線不均衡數(shù)據(jù)分類的極限學(xué)習(xí)機(jī)算法研究.pdf
- 基于主動(dòng)深度學(xué)習(xí)的遙感圖像分類.pdf
- 基于SVM主動(dòng)學(xué)習(xí)的文本分類.pdf
評(píng)論
0/150
提交評(píng)論