

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、在當今高速互聯(lián)網(wǎng)時代,眾多數(shù)字影像設備的普及,加上互聯(lián)網(wǎng)技術的進步,互聯(lián)網(wǎng)圖像如今在我們的生活中扮演著越來越重要的角色,網(wǎng)絡圖像搜索也已經(jīng)成為一個計算機視覺領域內非?;钴S和相當具有挑戰(zhàn)性的研究課題。需要指出的是,與十年前的情況不同,現(xiàn)在的互聯(lián)網(wǎng)使得數(shù)字圖像可以很容易地創(chuàng)建、上傳、共享和分布在互聯(lián)網(wǎng)上。比如Facebook,YouTube,F(xiàn)lickr等社群媒體允許圖像的上載者提供一組能夠描述該圖像的關鍵詞(亦稱Social Tags),
2、后系統(tǒng)利用這些關鍵詞來索引圖像,由于圖像的語義標注是通過網(wǎng)絡由用戶共同協(xié)作來完成的,因此這類圖像集合也被稱為Collaboratively-Tagged Images。這些標注信息一方面可以直接作為Web圖像索引,同時也可被用于自動圖像標注技術研究中的訓練樣本。由于Flickr等圖像共享網(wǎng)站上存在著大量的帶標簽的圖像集合,這種基于社群標注(Social Tagging)的共享方式將會極大地改善互聯(lián)網(wǎng)海量圖像組織及檢索的性能,因而如何更加
3、有效地利用這些帶標簽的圖像集合成為改善自動圖像標注性能的關鍵問題之一。
需要指出的是,用戶通常是按照隨機的順序(Random Order)來上傳圖像對應的標簽,即用戶所提交的標簽集合往往并不按照標簽與圖像內容的語義相關性(Tag Relevance)的大小進行排序。另外,用戶標注的關鍵詞標簽集合中存在大量的噪聲標簽(Noisy Tags),而目前Flickr尚沒有提供基于相關性(Relevance-based Ranking)
4、的檢索排序機制。這種標簽集合隨機排序的特性制約了海量圖像檢索性能的更進一步的應用。目前Flickr圖像共享網(wǎng)站提供了兩種圖像排序方式:1.Most Recent:即按照用戶上傳圖像的時間戳排序;2.Most Interesting:即按照用戶點擊率、評論數(shù)量等排序,但Flickr目前尚不能提供按照語義相關度檢索的模式。如何依據(jù)關鍵詞表征圖像的相關度(Relevance)大小實現(xiàn)標簽排序(Tag Ranking)成為了新的研究熱點。換句話
5、說,盡管基于社群標注的共享方式極大地改善了互聯(lián)網(wǎng)海量圖像組織及檢索的性能,然而用戶通常是按照隨機的順序(Random Order)來上傳圖像對應的標簽,即用戶所提交的標簽集合往往并不按照標簽與圖像內容的語義相關性(Tag Relevance)的大小進行排序。這種標簽集合隨機排序的特性制約了海量圖像檢索性能的更進一步的應用,因此標簽排序正逐漸成為多媒體研究領域的一個新的熱點。需要指出的是,經(jīng)過語義相關性排序后的圖像集合,可以作為表征語義關
6、鍵詞的有效訓練樣本,更好地解決區(qū)域層圖像標注中的小樣本學習問題。
如前所述,社群標簽在互聯(lián)網(wǎng)上蔚然成風,已經(jīng)成為一種捕述、歸類、檢索內容的流行的方式,并已經(jīng)在實際的社群媒體系統(tǒng)的管理和檢索中獲得了成功的應用。鑒于社群標簽對于網(wǎng)絡圖像檢索的重大意義,越來越多的研究人員針對社群圖像標簽展開研究。盡管用戶為社群圖像提供了標簽來描述圖像的內容,由于這些標簽是由不同的文化背景、知識結構的網(wǎng)絡用戶按照自己對圖像內容的主觀理解手工輸入的,因
7、此社群圖像的標簽的質量尚不能直接作為可靠的圖像索引關鍵詞進行基于關鍵詞的圖像檢索。目前社群圖像的標簽主要存在著標簽排列的無序性、標簽內容的不精確性等問題,因此帶標簽的社群圖像語義理解主要圍繞著改善標簽排序和標簽內容的精準度等方面展開。
目前已有部分研究機構(如MSRA)針對Tag Ranking問題展開研究。由于一幅圖像可能同時標注有若干個語義語義概念標記,這是一個典型的多標記學習問題,圖像本身具有一定程度的語義歧義性。而實現(xiàn)
8、標簽集合按照語義相關度進行排序,則抽象為一個典型的多標記排序(Multi-Label Ranking)問題。目前針對多標記學習的研究較多,而針對多標記排序問題的研究還相對較少。與多標記排序問題相似的研究包括樣本典型性排序(Typicality Ranking)和標簽排序(Tag Ranking)。
現(xiàn)有的針對標簽排序(Tag Ranking)的算法大多著力于基于標簽相關度的標簽排序(Relevance-based Tag Ra
9、nking)。直觀地,給定一幅圖像和標注的標簽集合,若標簽集合中的某個標簽A的相關度高于標簽B,則說明給定圖像表征標簽A的典型性高于表征標簽B的典型性,即標簽A更能表征圖像的語義內容。換言之,通過計算得到的給定圖像的K近鄰圖像子集中,標簽A在子集中出現(xiàn)的頻率要更高。這類算法主要有兩種代表性工作。(1)基于統(tǒng)計模型(Statistical Modeling)的排序算法;(2)基于數(shù)據(jù)驅動(Data-driven)的算法。基于統(tǒng)計模型的排序
10、算法利用核密度估計思想估計出圖像中每個標簽與圖像本身的語義相關度,其本質就是估計樣本的典型性(Typicality),如果圖像中表征某個語義標簽的區(qū)域的低層視覺特征較為典型,即其與其它標有相同標簽的區(qū)域的特征向量在特征空間中較為接近,則該標簽的語義相關度就高;同時考慮到標簽之間的語義相關性,采用隨機游走算法改善排序結果,實現(xiàn)最終的標簽排序。然而算法使用基于全局低層視覺特征來表征具有多標簽語義的圖像,因此無法較好地估計出每個標簽在特征空間
11、的密度值。而基于數(shù)據(jù)驅動的排序算法通過簡單的圖像全局特征匹配得到給定圖像的近鄰圖像子集,通過近鄰投票策略(Neighbor-voting)統(tǒng)計其標簽序列中每個關鍵詞的出現(xiàn)頻度,按照頻度的高低實現(xiàn)對標簽序列的排序。與基于統(tǒng)計模型的排序算法不同,基于數(shù)據(jù)驅動的排序算法在選擇待排序圖像的近鄰樣本集合時,只單純地使用圖像的視覺特征,而無需考量圖像的標簽信息。直觀地,由于算法較為簡單,因此基于近鄰投票機制的標簽排序算法在海量圖像數(shù)據(jù)集上體現(xiàn)出了較
12、好的擴展性。但需要指出的是,由于這類算法忽略了標簽之間的語義相關性,因此其排序性能不甚理想;其次,該算法亦采用全局視覺特征來表征圖像,因此在圖像相似性度量上無法取得令人滿意的效果。
據(jù)此,本文提出了一種改進的圖像多標簽排序算法,通過引入信號處理領域的稀疏表示理論,將近鄰圖像檢索問題轉化為稀疏重構問題,以此來改進近鄰圖像集合選取的語義相關性,進而改善圖像多標簽排序算法的性能。近年來,壓縮感知(Compressed Sensing
13、)和特征選擇的理論與方法結合,用來對圖像形成更加有效的稀疏表示(Sparse Representation),成為計算機視覺和機器學習領域的研究熱點問題。斯坦福大學的Tibshirani和加州大學伯克利分校的Breiman等人幾乎同時提出了對特征選擇稀疏施以l1-范數(shù)約束的Lasso思想,以促使被選擇出來的特征盡可能稀疏,提高數(shù)據(jù)處理過程的可解釋性(interpretable)和精度。以Lasso為代表的變量選擇方法已成為統(tǒng)計學在分析高
14、維數(shù)據(jù)所采用的主流手段。因此,可在稀疏表示基礎上研究圖像語義理解的理論與方法。
本文所提出的基于稀疏表示的圖像多標簽排序算法的具體思路如下:首先,該算法本質上歸屬于基于語義相關度排序的圖像多標簽排序算法。給定一幅待排序測試圖像,以及海量已標注社群圖像集合。我們將這幅待排序測試圖像看成是一個待重構的測試樣本,而將海量已標注社群圖像集合看成是過完備字典。通過稀疏表示理論,我們可以認為,待重構的測試樣本可以由該過完備字典中的少數(shù)樣本
15、稀疏重構得到,并基于學習得出的稀疏系數(shù)向量來表征子彈中的每個已標注圖像與測試樣本圖像的語義相似度和相關性。因此,所學習得到的稀疏系數(shù)向量中的每個維度表示了測試樣本圖像與字典中每個已標注圖像的語義相關性。最終基于所學習得到的語義相關性來獲得測試圖像的近鄰圖像子集,并利用近鄰投票策略來統(tǒng)計標簽序列中每個關鍵詞的出現(xiàn)頻度,按照頻度的高低實現(xiàn)對標簽序列的排序。此外,本文所提的算法同時考慮到標記之間的語義相關性(即共生關系),采用隨機游走算法改善
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示理論的社群圖像標簽排序算法的研究與實現(xiàn).pdf
- 基于稀疏編碼的圖像分類算法研究.pdf
- 基于稀疏編碼理論的自然圖像處理研究.pdf
- 多標簽分類中標簽編碼算法研究.pdf
- 基于稀疏表示的圖像標簽填充算法的研究與實現(xiàn).pdf
- 基于稀疏分解的圖像壓縮編碼算法研究.pdf
- 海量圖像標簽自動排序算法的研究與實現(xiàn).pdf
- 基于信號稀疏分解的圖像壓縮編碼算法的研究.pdf
- 圖像稀疏編碼算法及應用研究.pdf
- 圖像稀疏編碼算法及其應用研究.pdf
- 基于多參考圖像的群體圖像編碼算法.pdf
- 基于稀疏編碼的圖像分類研究.pdf
- 標簽的生成、排序算法研究.pdf
- 基于稀疏表示的排序學習算法.pdf
- 基于子空間學習和稀疏編碼的圖像分類算法研究.pdf
- 基于多形態(tài)稀疏基的WMSN圖像融合算法研究.pdf
- 基于Laplacian稀疏編碼的圖像分類研究.pdf
- 基于多特征融合與稀疏編碼的人臉識別算法研究.pdf
- 基于多模態(tài)監(jiān)督學習的圖像重排序算法研究.pdf
- 基于分形理論的圖像編碼算法研究.pdf
評論
0/150
提交評論