新技術攻克PacBio單分子測序中的堿基錯讀
閱讀:1507發(fā)布時間:2012-7-24
來自冷泉港實驗室(CSHL)的一位定量生物學家及其同事開發(fā)出了一種混合錯誤校正新方法,攻克了PacBio單分子測序的重大問題,可將長讀序的準確度提高到99.9%。這一研究成果發(fā)布在7月1日的《自然生物技術》(NatureBiotechnology)雜志上。
領導這一研究的是冷泉港實驗室助理教授MichaelSchatz以及馬里蘭大學和國家生物防衛(wèi)分析和對策中心的AdamPhillippy和SergeyKoren。
在這篇文章中,研究小組開發(fā)了一個軟件包可校正PacBio單分子測序中的一個嚴重問題:單分子測序中的堿基錯讀。但PacBio單分子測序的主要優(yōu)點是測定的讀序片段比當前其他二代測序技術長100倍,由此獲得的基因組結構信息比目前第二代測序技術更完整。
Schatz及研究團隊通過一種數學算法保留了PacBio測序技術的巨大優(yōu)勢,消除了它的主要缺陷。他們將測序讀序錯誤率從15%減少為不到千分之一。這一數學算法以開放源代碼的形式發(fā)布到萬維網上,大大提高了第三代測序在整個生物醫(yī)學研究界的實用性。
研究人員將這種算法應用于多種生物測序中,小到噬菌體病毒,大到復雜的鸚鵡基因組,都得到了良好的結果,展示了PacBio單分子測序技術廣泛的應用范圍。
“一條染色體,一個重疊群”
使用這種方法使PacBio單分子測序技術的長讀長優(yōu)勢得到了良好的展現,其存在的高錯誤率也得到了糾正,能夠并的組裝基因組,使得“一條染色體,一個重疊群”的目標的實現變的可能。
鸚鵡基因組大小超過人類基因組的三分之一,而發(fā)現鸚鵡基因組的*性就要歸功于第三代PacBio測序的長片段讀序優(yōu)勢。當前使用的第二代測序技術生成大量的短的重疊群,而每個片段的一致版本是許多讀序疊加的結果,雖然非常,但這些拼圖小塊太短,難以用來裝配特定基因組區(qū)域,如包含長重復序列的區(qū)域。
這種方法被稱為‘混合錯誤校正(hybriderrorcorrection),研究人員充分利用了第三代測序儀PacificBiosciencesRS的讀長優(yōu)勢,并在其中混入第二代測序儀生成的短讀序數據。用公共基因組裝配程序CeleraAssembler處理這兩種數據,生成的裝配結果準確性達到99.9%,拼接的重疊群平均長度是第二代測序儀所能得到的兩倍以上。隨著單分子測序技術的發(fā)展,預計這一混合方法得到的重疊群還會增長。
快速的denovo拼接有助于發(fā)現大片段的結構變異,對理解癌癥基因組和存在融合基因、拷貝數變異和大范圍結構變異的疾病遺傳變化具有重要意義。
高質量的基因組裝配對于基因組注釋和比較基因組分析尤為重要。許多微生物基因組分析取決于基因組測序的完成,但舊測序技術成本高昂。對高等生物進行高質量的基因組分析則依賴于測序捕捉到詮釋基因的DNA段。近年來研究發(fā)現基因組中存在自發(fā)性的結構改變,即拷貝數變異,這使得通過長片段DNA讀序和組裝獲得病患個體清晰準確的全基因組信息非常重要。
Schatz和他的同事們通過混合第二代測序技術進行錯誤校正的方法,使PacBio測序讀序相關的錯誤率不再是基因組裝配的障礙。利用PacBio測序技術的長讀序結合與之互補的短讀序可以有效進行基因組裝配,完成此前不可能實現的測序任務。
而PacBio單分子測序技術生成的重疊群更長,能更好組裝較大的基因組片段,包括那些長重復片段。Schatz和研究團隊希望在提高測序準確率的同時保留單分子測序的這一優(yōu)勢,他們通過有效結合第二代和第三代測序技術的優(yōu)勢做到了這一點。