基于保守結構域比對在22周人胎肝EST庫中發(fā)現(xiàn)新轉錄因子.pdf_第1頁
已閱讀1頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、研究目的:肝臟是人體代謝的主要器官,具有分泌膽汁、解毒以及吞噬、防御等重要的生理功能。此外,在4-6月孕齡時,人胎肝還是造血、免疫、肝臟系統(tǒng)干祖細胞及其基質細胞的來源,其中的造血干細胞可向各系成熟的血細胞發(fā)育分化。 復雜的生命現(xiàn)象在很大程度上是由大量受嚴格調控的基因的表達所決定的。真核細胞基因表達調控的關鍵步驟是轉錄調控,其機制十分復雜,涉及大量的轉錄因子和核內調控基因。據(jù)估計在人類的基因中含有2000-3000種轉錄因子(tr

2、anscription factor,TF),而22周的人胎肝(Human Fetal nver aged 22 Weeks,HFL22W)cDNA文庫中已知的轉錄因子與轉錄調控因子僅95種<'[1]>,因此胎肝中很可能存在一些尚未發(fā)現(xiàn)的、在生理過程及重要疾病(如腫瘤)的發(fā)生、發(fā)展中扮演重要角色的轉錄因子。 近年來,基因組和蛋白質組以及生物信息學的發(fā)展,使高通量地對轉錄因子進行篩選、鑒定和功能研究成為可能。這方面的實驗和技術均以

3、轉錄因子的結構特征和作用特點為基礎,對具有特定功能或特定結構域的轉錄因子進行篩選。本文基于對轉錄因子各家族同源序列及結構域的分析研究,對HFL22W EST數(shù)據(jù)庫中含有轉錄因子保守結構域的序列進行總結歸納和分類,以期能規(guī)?;睾Y選出未知轉錄因子。 首先,我們下載TRANSFAC 6.0轉錄因子數(shù)據(jù)庫中4218個轉錄因子文件,從中提取轉錄因子序列并格式化為FASTA格式數(shù)據(jù)庫一提取轉錄因子中各特征性的、保守的結構域的蛋白質序列,格

4、式化并送入FASTA格式數(shù)據(jù)庫。TRANSFAC由德國國家生物工程研究中心建立并管理,是關于轉錄因子及其在基因組上的結合位點和與DNA結合的profiles數(shù)據(jù)庫<'[2]>,由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構成。 本實驗室采用cDNA大規(guī)模測序策略對22周齡人胎肝cDNA文庫進行大規(guī)模測序,獲得了20282條EST。經過電子延伸、拼接、分類得到2

5、125個已知基因和2800個未知基因。我們以ATGpr程序分析這些未知基因序列的ORF并翻譯成蛋白質序列。本文采取的策略是用ATGpr預測未知基因序列,選其結果中具有最大可信度(Reliabilitv)或有最大的長度的兩條ORF,并滿足Reliabilitv>0.12<'[3]>,length>70,有終止密碼子。 我們使用兩種不同的篩選方法:(一)對轉錄因子中各特征性的保守結構域構建這些模體的正則表達式。基于這些共有模體的正則

6、表達式對HFL22W cDNA翻譯蛋白質序列庫規(guī)?;乇葘Σ檎遥Y選出含有某類轉錄因子特征性結構域的cDNA翻譯蛋白質序列作為候選序列。(二)采用MEME軟件分析各類轉錄因子的保守結構,并根據(jù)分析結果在HFL22W cDNA翻譯蛋白質序列庫中尋找候選序列。 進一步分析候選序列,與其它轉錄因子結構域進行比對及其它生物信息學分析,確定其是否可能是一個新的未知轉錄因子。 結果:按類別對轉錄因子作分析和發(fā)掘,對找到的轉錄因子候選

7、序列作了進一步的生物信息學分析,從類型、數(shù)目、位置、結構、功能等方面對序列中預測的結構域作了綜合分析。 (一)數(shù)據(jù)和數(shù)據(jù)處理 編寫Perl程序從TRANSFAC轉錄因子文件中提取所需要的信息,構建了全部轉錄因子序列和結構域序列的數(shù)據(jù)庫文件。 我們對2800個未知基因的序列進行了ORF分析和蛋白質預測,并以所預測的蛋白質序列作為篩選轉錄因子的候選序列。編寫了perl程序從ATGpr的輸出結果中提取了1503條ORF

8、翻譯蛋白序列作為預測轉錄因子的候選序列集合,其中1010條同時有最長ORF長度和最大可信度,271條有最長ORF長度,222條有最大可信度。與轉錄因子序列類似,我們構建了這些蛋白質序列的數(shù)據(jù)庫文件,以FASTA格式文件存儲。 (二)C0002類轉錄因子的分析與發(fā)掘 TRANSFAC的C0002類轉錄因子是Cys4 zinc finger of nuclear receptor type轉錄因子,即具有Cys4型鋅指結構的

9、細胞核受體型蛋白。這一類轉錄因子的共同特征是具有兩個不同大小、組成和功能的鋅指結構。 我們采用了兩種方法查找C0002類的轉錄因子: 1.以鋅指結構域正則表達式比對數(shù)據(jù)庫 構建鋅指結構域正則表達式,用程序regexp_FL22W對上述正則表達式查找HFL22W蛋白序列庫。結果匹配到2條蛋白序列(C4992、F0418),并確定了鋅指結構的位置。 2.MEME軟件分析 MEME程序是一套模體分析工具

10、,是基序啟發(fā)的多EM(Multiple EM for MotifElicitation)的縮寫,EM指期望值最大化(Expectation Maximization),是統(tǒng)計學中預測丟失值或未觀察到的值的方法。MEME的結果與第一種方法的結果一致,找到同樣的序列和鋅指結構。 用BLAST比對其它轉錄因子結構域分析了兩條序列。用prosite對兩條序列作進一步生物信息學分析。 (三)C0001類轉錄因子的分析與發(fā)掘

11、 TFⅢA/Krueppel類型轉錄因子含Cys2His2型鋅指結構。每個鋅指結構包含2個半胱氨酸和2個組氨酸殘基配位一個鋅離子,有時其中一個組氨酸可以被一個半胱氨酸取代<'[4]>。鋅離子對與DNA結合起重要作用。 同樣以鋅指結構域正則表達式比對數(shù)據(jù)庫和以MEME軟件兩種方法分析發(fā)掘轉錄因子。 1.用程序regexp_FL22W以正則表達式查找HFL22W蛋白質序列庫,找到17條蛋白質序列。這17條序列與其它轉錄因子結

12、構域作BLAST比對,有6條序列匹配到與轉錄激活或其它功能相關的轉錄因子結構域。 2.以MEME軟件分析 結果找到16條序列,與第一種方法找到的重復。 對6條序列進行了SMART結構分析和二級結構預測,結果顯示了與轉錄因子及其結構域相關的提示。 結論:基于已有的EST數(shù)據(jù)庫和轉錄本數(shù)據(jù)庫,使用生物信息學的分析方法,通過對轉錄因子特有序列的同源性搜索篩選新的轉錄因子,具有快速、全面、規(guī)模化等優(yōu)勢,可以為轉錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論