avav588con,最近2019中文免费字幕在线观看,欧美一道本一区二区三区,九九热在线观看,经典好看免费AV

上海士鋒生物科技有限公司
免費會員

當前位置:首頁   >>   資料下載   >>   GenBank 序列數(shù)據(jù)庫

GenBank 序列數(shù)據(jù)庫

時間:2016-5-11閱讀:926
分享:
  • 提供商

    上海士鋒生物科技有限公司
  • 資料大小

    50.6KB
  • 資料圖片

    查看
  • 下載次數(shù)

    255次
  • 資料類型

    PNG 圖片
  • 瀏覽次數(shù)

    926次
點擊免費下載該資料

一級蛋白質(zhì)和核酸數(shù)據(jù)庫在分子生物學界是如此的司空見慣,以致于我們很少會去考慮這些普遍存在的工具是如何建立的。但是如果我們能夠了解這些序列是如何匯集到一起的,這將有助于我們加深對生物學的理解,并且能夠更加充分地發(fā)掘這些記錄中蘊藏的信息。

GenBank是美國國立衛(wèi)生研究院維護的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統(tǒng)發(fā)生學劃分,另外一些則按照生成這些序列數(shù)據(jù)的技術(shù)方法劃分。目前GenBank中所有的記錄均來自于zui初作者向DNA序列數(shù)據(jù)庫的直接提交。這些作者將序列數(shù)據(jù)作為論文的一部分來發(fā)表,或?qū)?shù)據(jù)直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛(wèi)生研究院下屬國立生物技術(shù)信息中心建立,與日本DNA數(shù)據(jù)庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學實驗室核苷酸數(shù)據(jù)庫(EMBL)一起,都是核苷酸序列數(shù)據(jù)庫合作的成員。所有這三個中心都可以獨立地接受數(shù)據(jù)提交,而三個中心之間則逐日交換信息,并制作相同的充分詳細的數(shù)據(jù)庫向公眾開放(雖然格式上有細微的差別,并且所使用的信息系統(tǒng)也略有不同)。

這一章描述GenBank數(shù)據(jù)庫是如何構(gòu)成的,它如何與蛋白質(zhì)數(shù)據(jù)庫相銜接,以及如何解釋其中的數(shù)據(jù)成分。關(guān)于序列數(shù)據(jù)庫,前人已經(jīng)作了大量的工作,具體可參見(Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。所有這些論文都指出了數(shù)據(jù)庫快速增長的趨勢,并對如何利用這些生物學資源提出了建議。出于科學研究的考慮,以及由于歷史的原因,序列數(shù)據(jù)被分別存放在核苷酸和蛋白質(zhì)數(shù)據(jù)庫中。核苷酸序列是查詢核苷酸數(shù)據(jù)庫以及蛋白質(zhì)數(shù)據(jù)庫時的主要出發(fā)點,并且目前有一種趨勢,將核苷酸數(shù)據(jù)庫介入到蛋白質(zhì)數(shù)據(jù)庫的管理之中(正如我們下面將要看到的那樣)。這并不奇怪,因為數(shù)據(jù)庫維護者與數(shù)據(jù)提交者之間的直接通訊將有利于保證數(shù)據(jù)的真實性與準確性(提交者需要一個檢索號,并且他們想要得到他們添加到數(shù)據(jù)庫中的新記錄)。在很多情況下,這種對數(shù)據(jù)的關(guān)注意味著提供適當?shù)男畔碜⑨孋DS(coding sequence:編碼序列),并告訴我們?nèi)绾蔚玫椒g產(chǎn)物。這種對蛋白質(zhì)和核酸序列統(tǒng)一管理的傾向也明顯地體現(xiàn)在ncbi的Entrez之中,在GenBank的管理之中,以及在GenPept格式記錄的生成過程之中。在歐洲,EBI的工作人員統(tǒng)一維護管理Swiss-Prot和TREMBL,這些工作人員也負責EMBL核苷酸數(shù)據(jù)庫的管理工作。還有Amos Bairoch和他在日內(nèi)瓦大學的研究組。(見本章后的列表)。盡管如此,建立核苷酸和蛋白質(zhì)數(shù)據(jù)庫的初衷還是有區(qū)別的。本章還初步討論了將在第六章詳細描述的數(shù)據(jù)模型。這一章主要是從GenBank flatfile的角度介紹序列數(shù)據(jù),但必須明確的是,“flatfile”(不論是GenBank, EMBL, Swiss-Prot或PIR),都只是ASN.1報告的一個方面。而ASN.1才是代表了NCBI數(shù)據(jù)模型的語言。GenBank以DNA為核心,包含了許多計算生物學資源。

歷*,蛋白質(zhì)數(shù)據(jù)庫先于核苷酸數(shù)據(jù)庫。在60年代初,Dayhoff和他的同事們收集了所有當時已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊”(Dayhoff et al., 1965)。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(George et al., 1997)。這本書為今天整個生物信息學界日常工作所依賴的計算生物學資源播下了種子。這個在1965年可以很容易地存放在一張軟盤上的數(shù)據(jù)集(盡管那時并不存在軟盤這種存儲介質(zhì)),是一小群人多年的工作成果。今天,任何一個DNA或蛋白質(zhì)數(shù)據(jù)庫每天增加的數(shù)據(jù)量都數(shù)倍于此。zui早的DNA序列數(shù)據(jù)庫于1982年在歐洲分子生物學實驗室誕生,隨即就開始了一個數(shù)據(jù)庫爆炸的時代。(見圖2.1)。R. Cook-Deegan(1993)在《基因戰(zhàn)爭》中詳細描述了這一時期人類基因組計劃的歷史。此后不久因一項NIH與洛斯阿拉莫斯國家實驗室的合同而誕生了GenBank。兩個中心都致力于發(fā)展輸入方式,這主要是將學術(shù)刊物上公開發(fā)表的論文轉(zhuǎn)換為更適合計算機使用的電子格式。日本的DNA數(shù)據(jù)庫(DDBJ),在幾年后加入了數(shù)據(jù)收集的合作。在1988年一次三方會議之后(現(xiàn)在稱之為“DNA序列數(shù)據(jù)庫合作計劃”)達成了一項協(xié)議,對數(shù)據(jù)庫的記錄采用共同的格式,并且每個數(shù)據(jù)庫只負責更新提交到這一數(shù)據(jù)庫的那些數(shù)據(jù)。現(xiàn)在三個中心都收集直接提交的數(shù)據(jù),并在三者之間發(fā)布。這樣,任何一個中心都擁有并發(fā)布所有的序列數(shù)據(jù)。這種方式下每條記錄只被生成這條記錄的數(shù)據(jù)庫所擁有,也就是說只有生成這條記錄的數(shù)據(jù)庫可以對記錄進行更新,這就防止了“更新沖突”。否則如果每個數(shù)據(jù)庫都可以修改任一條記錄,并覆蓋其他數(shù)據(jù)庫的數(shù)據(jù),就必定會發(fā)生錯誤。近年來的安排保證了沒有一個數(shù)據(jù)庫可以覆蓋其他數(shù)據(jù)庫更新的記錄。所有的序列數(shù)據(jù)庫也都是計算生物學中心,并且越發(fā)表明序列數(shù)據(jù)不能簡單地由自動化方式來生成。每個數(shù)據(jù)庫都成為了一個中心,在那里生成序列數(shù)據(jù),并由生物學家進行驗證,同時還開發(fā)一些利用這些信息的工具(例如NCBI的Entrez,見第5章,以及EBI現(xiàn)在正在開發(fā)的SRS)。很明顯的一點是一些專職的,介入到收集數(shù)據(jù)、提供發(fā)現(xiàn)與檢索工具,并且作為研究機構(gòu)來研究新算法、發(fā)掘公共數(shù)據(jù)庫并在zui高水平進行科學活動的機構(gòu)將能夠zui大限度地服務(wù)于用戶群體。在這一環(huán)境下,知識被zui率地獲取與共享,并且新的研究與理解這樣大量數(shù)據(jù)的方法也不斷涌現(xiàn)。

這一章的著重介紹GenBank核苷酸數(shù)據(jù)庫,GenBank是包含了三個重要蛋白質(zhì)數(shù)據(jù)庫(Swiss-Prot, PIR和PDB)的一系列數(shù)據(jù)庫中的一個。這一系列數(shù)據(jù)庫中的每一個都對數(shù)據(jù)庫現(xiàn)在和將來的使用方法產(chǎn)生了或產(chǎn)生過重大影響。PDB是關(guān)于核酸和蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫,將在第三章中詳細介紹。Swiss-Prot和PIR可以稱為二級數(shù)據(jù)庫,它比已經(jīng)存在于一級數(shù)據(jù)庫中的數(shù)據(jù)提供了更多的信息。Swiss-Prot和PIR中的蛋白質(zhì)序列主要來源于核苷酸數(shù)據(jù)庫,另外一小部分是直接向Swiss-Prot提交的(這些蛋白質(zhì)是直接測序的)或者是從公開發(fā)表的論文中搜索到的。這里沒有詳細討論這些情況,我們建議讀者通過其他途徑了解更多的詳情(Bairoch and Apweiller, 1997; George et al., 1997)。

會員登錄

×

請輸入賬號

請輸入密碼

=

請輸驗證碼

收藏該商鋪

X
該信息已收藏!
標簽:
保存成功

(空格分隔,最多3個,單個標簽最多10個字符)

常用:

提示

X
您的留言已提交成功!我們將在第一時間回復您~
在線留言