

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、癌癥是世界上最為嚴重的公共問題之一,中國癌癥發(fā)病率逐漸上升,但根據(jù)目前國內(nèi)的水平,三分之一的癌癥是可以預防的,有效提高癌癥的早期診斷率已經(jīng)被公認為是改善其療效的關鍵。蛋白質(zhì)組學及相關技術的發(fā)展給癌癥病理的研究及預防等帶來了新的希望。研究表明在癌癥發(fā)病早期,病人體征沒有任何異常的情況下,蛋白質(zhì)芯片采集的數(shù)據(jù)及繪制的質(zhì)譜圖可較為直觀的顯示患者與健康人在蛋白表達水平上的差異。但若要對未知標簽的樣本進行可靠的預測還需生物信息學的協(xié)助。根據(jù)樣本質(zhì)
2、譜提出新的診斷技術來提高癌癥預診斷的準確率和可靠性成為了蛋白質(zhì)組學研究的熱點問題之一。
機器學習理論的發(fā)展推動了預診斷技術的進步。但質(zhì)譜數(shù)據(jù)具有高維和小樣本的特點,上萬的維特征讓一些分類器不知所措,僅有幾十個或上百個的樣本亦對分類器訓練結(jié)果提出質(zhì)疑。目前,進行特征提取及分類包括有監(jiān)督學習和無監(jiān)督學習兩大類。有監(jiān)督學習是對有概念標記的訓練集進行學習,對之外的數(shù)據(jù)分類。無監(jiān)督學習是對無概念標記的訓練集進行學習,所有標記均未知。實際
3、應用中,已標樣本較難獲取,同時浪費了大量未標記樣本,而無監(jiān)督學習則浪費了已標記樣本,因此出現(xiàn)了同時利用兩種樣本的半監(jiān)督學習。在癌癥診斷方面,較為容易獲得大量未標記樣本,而對未標記的樣本進行標記則需付出很高的代價。半監(jiān)督學習所需的標記樣本較少,同時還能利用未標記樣本以輔助提高分類的準確率和可靠性,因此非常適合于癌癥的分類問題。
在半監(jiān)督學習機制中,基于圖的半監(jiān)督學習受到研究者的青睞,其中局部全局一致性學習算法是基于圖的半監(jiān)督學習
4、算法中的一種,該算法充分利用了未標樣本和已標樣本,但其分類性能較依賴內(nèi)在參數(shù),進行質(zhì)譜數(shù)據(jù)分析會帶來諸多不便。為此,采用了簡潔局部全局一致性學習方法避免了參數(shù)對分類性能的干擾。但該算法面對維災問題依然失效,分類性能低下。因此針對蛋白質(zhì)質(zhì)譜數(shù)據(jù)存在高噪聲、高冗余性的特點及維災問題,本文提出了一種基于半監(jiān)督學習的多步降維特征提取算法與基于稀疏表示和半監(jiān)督學習的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類算法。
基于半監(jiān)督學習的多步降維特征提取算法,首先通過
5、逐步降維去除冗余信息,逐步篩選出相關性低但判別性高的特征,最后用于簡潔局部全局一致性學習的半監(jiān)督學習算法中。主要思路是首先對原始數(shù)據(jù)進行降噪及提高信噪比等預處理,即去除大部分的高頻或低頻噪聲,并且使蛋白質(zhì)質(zhì)譜數(shù)據(jù)之間的對比性增強。然后利用T檢驗進行降維,初步篩選高維度的特征,初步篩選后的數(shù)據(jù)特征保留了冗余度較高和相關性較大的特征。其次對 T檢驗之后的數(shù)據(jù)特征進行離散小波變換(DWT)以及相對熵排序,進一步篩選出噪聲低、冗余度低的特征。之
6、后再進行主成分分析,進一步降維,同時也去除了特征間的相關性,保留了一小部分與樣本類別相關性大的非相關數(shù)據(jù)特征。最后,利用簡潔局部全局一致性學習算法對逐步降維去噪后的數(shù)據(jù)特征進行分類。
利用該方法在三個樣本數(shù)據(jù)集(分別為卵巢癌樣本集OC-WCX2b、前列腺癌樣本集 PC-H4及浙江省腫瘤醫(yī)院臨床乳腺癌樣本集BC-WCX2a)上進行測試,結(jié)果顯示該方法分類效果較好(分別為99.13%、96.81%、92.78%),敏感性較高(分別
7、為99.01%、96.81%、100%)。同時設計了多組對比試驗,包括T檢驗的有無、DWT和相對熵排序的有無、主成分分析的有無和多步降維方法的有無對比試驗,結(jié)果各步方法都能明顯提高簡潔局部全局一致性學習算法的分類性能。另外,對三個數(shù)據(jù)集采用PCA算法及KPCA算法進行降維,采用基于高斯核函數(shù)的SVM算法及LDA算法進行分類,與本文所提算法進行比較。結(jié)果在數(shù)據(jù)集OC-WCX2b上的分類率差別不顯著,在數(shù)據(jù)集PC-H4及BC-WCX2a上分
8、類率顯著不同,本文所提算法結(jié)果分類率較高,且綜合水平更高。為進一步檢驗算法分類性能,本文還設計了不同分類器間分類性能對比實驗。降維算法均為本文所提方法,分類方法分別為樸素貝葉斯算法、SVM算法、kNN算法。結(jié)果在數(shù)據(jù)集BC-WCX2a上本文所提算法的分類率最高且最穩(wěn)定。檢驗實驗結(jié)果表明采用多步降維方法進行特征提取的方法是有效的,再利用半監(jiān)督學習進行分類,分類效果較好。
基于稀疏表示和半監(jiān)督學習的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分類方法首先進行核
9、主成分分析,解決維數(shù)災難問題,然后構(gòu)造稀疏鄰接圖,再運用于基于圖的半監(jiān)督學習的簡潔局部全局一致性學習算法中。主要思路是首先利用核主成分分析對蛋白質(zhì)質(zhì)譜數(shù)據(jù)進行主成分提取,使質(zhì)譜特征的維數(shù)小于樣本數(shù),以解決維災問題;然后求解樣本稀疏表示向量,構(gòu)造稀疏鄰接圖,本實驗是通過求解L1范式的優(yōu)化問題來獲取所有樣本的稀疏表示向量的,把稀疏向量作為樣本間邊權值從而得到稀疏鄰接圖;最后運用基于圖的半監(jiān)督學習的簡潔局部全局一致性學習算法進行標簽傳遞,對有
10、標記和無標記樣本進行預測判別。
利用該方法在同上三個數(shù)據(jù)集上進行測試,結(jié)果顯示該方法分類效果較好(分別為99.66%、97.35%、92.02%),敏感性較高(分別為99.97%、97.61%、98.05%)。另外對多個經(jīng)典降維分類算法在三個數(shù)據(jù)集上進行了測試。降維方法采用PCA及KPCA算法,分類方法采用基于高斯核函數(shù)的SVM算法及LDA算法,與本文所提算法比較。結(jié)果在數(shù)據(jù)集OC-WCX2b及BC-WCX2a上結(jié)果無顯著差距
11、。在數(shù)據(jù)集PC-H4上,本文所提算法是這幾類算法中效果最好的。為進一步檢驗所提算法分類性能,設計了不同分類器間分類性能對比實驗。降維算法均為基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC進行分類。結(jié)果表明本文所提算法分類性能普遍較高,且穩(wěn)定性較好。同時,探討了分類性能與已標樣本數(shù)量的關系,結(jié)果表明總體趨勢為分類率隨已標樣本數(shù)量的增加而升高,達到某個閾值時會趨于穩(wěn)定。總之,基于稀疏表示的半監(jiān)督學習方法具有較好的分類性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于優(yōu)化算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于聚類分析的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析研究.pdf
- 蛋白質(zhì)功能預測的半監(jiān)督學習算法研究.pdf
- 應用SELDI-TOF MS質(zhì)譜技術構(gòu)建臨床常見病原菌蛋白指紋數(shù)據(jù)庫.pdf
- 基于SELDI-TOF-MS技術的乳腺癌血清蛋白質(zhì)譜研究.pdf
- 半監(jiān)督學習下的藥物靶蛋白質(zhì)預測方法研究.pdf
- 蛋白質(zhì)組學質(zhì)譜數(shù)據(jù)分析的新方法研究開發(fā).pdf
- 基于質(zhì)譜數(shù)據(jù)的蛋白質(zhì)識別系統(tǒng).pdf
- 大腸癌SELDI-TOF-MS蛋白質(zhì)組圖譜的分析.pdf
- 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺的建立及其在大規(guī)模數(shù)據(jù)分析中的應用.pdf
- 基于模型的蛋白質(zhì)芯片數(shù)據(jù)分析.pdf
- 基于SELDI-TOF-MS技術的壺腹周圍癌血清蛋白質(zhì)譜的初步研究.pdf
- 基于無監(jiān)督學習技術的位置大數(shù)據(jù)分析.pdf
- 基于半監(jiān)督和主動學習的蛋白質(zhì)關系抽取研究.pdf
- 基于質(zhì)譜數(shù)據(jù)分析的蛋白質(zhì)鑒定——斷裂模型、磷酸化肽段以及譜庫搜索方法的研究.pdf
- 食管鱗癌血清SELDI蛋白質(zhì)組表達譜的研究.pdf
- 基于監(jiān)督學習的人類蛋白質(zhì)網(wǎng)絡復合物識別.pdf
- 基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定算法研究.pdf
- 基于群體智能的特征選擇算法在SELDI質(zhì)譜數(shù)據(jù)分析中的研究.pdf
評論
0/150
提交評論