面向大規(guī)模數據分析與分類的正則化回歸算法.pdf_第1頁
已閱讀1頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯網技術的飛速發(fā)展及數據收集成本的不斷降低,大數據時代已經來臨。大規(guī)模數據分析是指對規(guī)模巨大的數據進行分析,從中獲得有利于對個體或者群組進行辨識的對象,大規(guī)模數據分析技術的社會及市場需求也變得十分緊迫。降維是對數據預處理及進一步分析的有效方式,通常采用變量選擇或者函數變換等途徑來描述關鍵的數據結構(如局部性,判別性等等),因而在回歸分析、機器學習、數據挖掘和模式識別等領域占據著十分重要的地位。數據降維往往能夠提供對數據更加本質和深

2、刻的理解,因而廣泛用于特征匹配、模型解釋、數據表示等。在過去二十年中,回歸方法因模型直觀和理論豐富等特點受到了廣泛的關注,分片逆回歸(SIR)由于它在降維方面的有效性也吸引了很多研究者。然而,SIR的兩個缺點限制了它進一步的應用。第一,在高維數情況下SIR的計算復雜度較高。第二,在改進特征選擇和模型解釋能力方面,投影子空間的稀疏性沒有很好的挖掘出來。另一方面,怎樣從足夠的輔助數據集中挖掘判別信息,去改進機器智能系統的理解和分析能力,在大

3、數據時代是一個更加值得深入研究的課題。并且它有非常廣泛的應用空間,包括圖像分類、視頻檢索、金融數據聚類或預測。在圖像識別方面,比如,圖像分辨率的差異容易導致訓練集與測試集的數據特征有較大的差異,為直接數據降維(如主成分分析)帶來了性能上的困難;同一個對象在不同尺度或者不同視角下的觀測結果,往往能夠提供優(yōu)勢互補的數據描述。領域自適應的任務是提取每個領域的判別特征并且同時提高目標域的分類性質。遷移學習的方法提供了一些可能的方法來解決上面提到

4、的問題。用目標域中非常少的有標簽的數據并同時借助于源域中大量的有標簽的數據去學習領域自適應,期望用遷移源域中的判別信息去提高目標域的分類特性。
  本研究主要內容包括:⑴提出了一個基于相關熵和分類回歸的模型。在回歸系數中使用一個光滑的懲罰項替代了稀疏的限制,使得基于回歸模型的分類算法在應用中更加靈活。更加具體的學術貢獻如下:在特征譜空間中求解判別式回歸系數,減小數據分析的計算復雜度;引入回歸系數的稀疏約束,增強高維數據分析模型解的

5、解釋性;針對例外點和噪音數據,設計快速,穩(wěn)健的分類算法。用高維面部圖像和基因微陣列數據去評估新的算法,并且和其他一些先進的方法做了對比新方法獲得了有競爭力的結果。⑵提出基于低秩表示和依條件轉換的遷移學習方法(LRCT),為了減少實際中可能的限制,包括計算的復雜性,和進一步提升分類的性能。受低秩表示方法及其成功應用的啟發(fā),LRCT希望找到一組特征表示,以合適的方式表達出數據局部和光滑特性的變換投影矩陣,用最小重構誤差把非均勻的數據投影到一

6、個共享子空間上。新方法的創(chuàng)新點主要體現在通過一些概率假設建立了一個中間域(I),然后在中間域I和目標域T之間求得有效的低秩表示。⑶在因果關系框架下研究條件分布不匹配問題,建立從中間域I到目標域T之間的低秩表示關系,并由此學習領域自適應特征。因此新的方法從依條件不變的特征中去利用低秩結構;在數值優(yōu)化問題上,本文重新參數化密度比(density ratio)函數,把這個參數化的方程轉化成經典的二次規(guī)劃問題,然后用選擇優(yōu)化策略的方法求解新的目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論