相互作用組異構數據集成研究.pdf_第1頁
已閱讀1頁,還剩165頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、后基因組(post-genome)生物醫(yī)學的一個關鍵目標就是對活細胞內的所有分子及其相互間的作用進行全面和系統(tǒng)地研究。理解細胞系統(tǒng)的一個關鍵步驟是對DNA、RNA、蛋白質和化學小分子等相關的物理相互作用網絡進行映射,從而對特定的物種形成一個盡可能完整和準確的相互作用組網絡(interactome network)。研究者們采用高通量技術的實驗,基于計算的預測,以及文獻挖掘等方法得到了大量的、有價值的相互作用組數據。同時,為了管理和利用這

2、些數據,研究者們建立了許多相互作用組數據庫。但是,現有的相互作用組數據庫相互隔離,形成了所謂的“信息孤島”,不能實現數據共享(data sharing)和更有效的利用。為了更好地管理和更有效地利用現有的相互作用組數據,需要將這些相互獨立的數據庫有機地集成在一起。這對于增加相互作用組研究的整體知識水平,以及對該領域更深入、更全面的理解是十分重要的。數據集成(data integration)已經成為相互作用組研究的重要方向之一。
 

3、  本研究建立了相互作用組數據倉庫InteractomeDW。InteractomeDW包括相互作用組數據庫集合,生物實體映射數據庫,生物學本體和受控詞表數據庫集合,以及生物學注釋數據庫等四大部分。InteractomeDW存儲了62779056條相互作用記錄,涉及51個相互作用組數據源,9個輔助數據源,5個相互作用組數據類型(蛋白質相互作用,結構域相互作用,分子間相互作用,復合物和通路),2426個物種,170個相互作用鑒定方法,4

4、4個相互作用類型,以及85212篇參考文獻。就我們所知,InteractomeDW比現有相關研究建立的數據倉庫的規(guī)模都要大。
   本研究首次提出融合了基于數據倉庫(data warehouse)和基于中介(mediation)這兩種方法的新型異構數據集成方法WM。WM方法采用數據倉庫方式進行數據管理,以確保數據源的可用性、提高系統(tǒng)查詢效率和數據質量。待集成的所有相互作用組數據庫都存儲在本地服務器上,這樣可以最大限度地確保數據源

5、的可用性。同時,本地存儲策略顯著提高了系統(tǒng)的查詢效率和響應能力。相互作用組數據倉庫提供的數據清洗功能可以檢測、修正或刪除所有相互作用組數據庫中己損壞、不完整或不準確的臟數據,進而提高所集成數據的質量。WM方法采用中介方式實現具體的數據集成工作,以提高系統(tǒng)的擴展性和可維護性。在WM方法中,可以方便地通過向中介器模塊的映射關系表注冊新的數據源,并構建相應包裝器的方式實現數據集成范圍的擴展。這種擴展方式對數據集成系統(tǒng)的其他部分沒有任何影響,實

6、現了可插拔式的數據集成。這種低耦合度、靈活的集成方式使得數據集成系統(tǒng)的可維護性大大加強。WM方法結合了上述兩種數據集成方法的優(yōu)點,很好地兼顧了數據集成的效率和靈活性,為相互作用組數據集成提供了基礎架構和解決方案。
   本研究利用WM方法成功地構建了一個可靠性高、數據質量高、查詢效率高和可擴展性強的基于網絡的相互作用組異構數據集成系統(tǒng)IMbase。建立IMbase的目的就是讓生物學家可以透明地訪問相互作用組異構數據庫,更有效地利

7、用其中的數據。IMbase是一個共享和利用相互作用組數據的基礎平臺,為生物學家提供了相互作用組數據集成、相互作用網絡分析和推理,以及相應的Web Service開發(fā)接口等多種功能,進而可以幫助生物學家生成相互作用假說和實現知識發(fā)現(knowledgediscovery)。IMbase對相互作用組相關數據進行了垂直集成。這樣做可以通過及時總結和整理現有數據,實現相互作用組研究領域內更廣泛的數據共享,進而提高相互作用組研究領域的總體知識水平

8、。以相互作用組數據的垂直集成為基礎,可以進一步實現跨領域和學科數據的水平集成,以實現更有價值的知識發(fā)現。就我們所知,IMbase是現有數據規(guī)模最大,功能最為完善的相互作用組數據集成系統(tǒng)。用戶可以通過網址http://122.70.220.98/imbase/index.gr免費訪問IMbase。
   本研究將IMbase系統(tǒng)應用于小鼠神經管缺陷(NTDs)的研究。以表達譜芯片篩選出的差異表達基因為誘餌,利用IMbase獲得與這

9、些差異表達基因有相互作用的生物實體對應的基因,并構建相應的相互作用網絡。本研究建立了已知小鼠NTDs候選基因數據庫MouseNTDs。通過MouseNTDs數據庫對潛在NTDs候選基因進行篩選,以確定已被認定和尚未被認定為小鼠NTDs候選基因的潛在NTDs候選基因。最后,通過研究這些篩選出的潛在NTDs候選基因的注釋信息和通路信息,本研究提出了小鼠NTDs候選基因假說,為進一步的分子生物學實驗提供可能的方向。
   本研究的主要

10、創(chuàng)新之處在于:
   1.提出了一種新的異構數據集成的方法WM。WM方法結合了基于數據倉庫和基于中介這兩種數據集成方法的優(yōu)點,很好地兼顧了數據集成的效率和靈活性,為相互作用組異構數據集成提供了基礎架構和解決方案。
   2.建立了一個相互作用組數據倉庫InteractomeDW。InteractomeDW共存儲了超過62百萬(62779056)條相互作用記錄,涉及51個相互作用組數據源,9個輔助數據源,5個相互作用組數據

11、類型(蛋白質相互作用,結構域相互作用,分子間相互作用,復合物和通路),2426個物種,170個相互作用鑒定方法,44個相互作用類型,以及85212篇參考文獻。
   3.建立了一個生物實體映射數據庫BEM。BEM是由5個相關數據源集成而來,共存儲了超過1.8億(180328282)條非冗余的映射記錄,涉及4個實體類型(基因,蛋白質,小分子物質和化合物),可以實現90個常用生物醫(yī)學數據庫之間的實體映射。
   4.利用WM

12、方法,構建了一個基于網絡的相互作用組異構數據集成系統(tǒng)IMbase。IMbase是一個共享和利用相互作用組數據的計算平臺,提供相互作用組數據集成、相互作用網絡分析和推理、生物實體映射等多種服務,可以幫助研究者生成相互作用假說和實現知識發(fā)現。
   5.構建的異構數據集成系統(tǒng)IMbase不但提供了基于網絡應用程序的訪問方式,而且還提供了基于Web Service的訪問方式,以便為相關軟件開發(fā)者提供編程接口,實現軟件復用和可互操作性。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論