生命遺傳信息的快速獲取對生命科學的研究具有重要意義。上圖1(右擊圖片查看大圖,下同)描述了自1953年Watson和Crick建立DNA雙螺旋結構以來,整個測序技術的發展。
第壹代測序技術
第壹代DNA測序技術采用的是桑格和庫爾森在1975年開創的鏈終止法或無極生組合和吉爾伯特在1976-1977年發明的化學法(鏈降解),完成於1977年。從此,人類獲得了窺探生命中基因差異本質的能力,開始進入基因組學時代。研究者們在多年的實踐中不斷改進桑格方法。2001,第壹張人類基因組圖譜是在改進的桑格方法基礎上完成的。桑格法的核心原理是,由於ddNTP的2’和3’都不含羥基,所以在DNA合成過程中不能形成磷酸二酯鍵,所以可以用來中斷DNA合成反應。在四個DNA合成反應體系中加入壹定比例的帶有放射性同位素標記的ddNTP(包括ddtp、ddCTP、ddGTP和ddTTP),經凝膠電泳和放射自顯影後,根據電泳帶的位置即可確定待測分子的DNA序列(圖2)。這個網站為桑格測序法做了壹個短片,形象生動。
值得註意的是,測序技術發展初期,除了桑格法,還出現了壹些其他測序技術,如焦磷酸測序法、連接酶法等。其中焦磷酸測序法是羅氏公司454技術使用的測序法2-4,連接酶測序法是ABI公司固相技術使用的測序法2-4,但它們的* * *同中心手段都是使用Sanger1中能中斷DNA合成反應的dNTP。
第二代測序技術
總的來說,第壹代測序技術的主要特點是測序的閱讀長度可以達到1000bp,準確率高達99.999%。但其測序成本高、通量低等缺點嚴重影響了其真正的大規模應用。所以第壹代測序技術並不是最好的測序方法。經過不斷的技術發展和完善,以羅氏的454技術、illumina的Solexa、Hiseq技術和ABI的Solid技術為標誌的第二代測序技術誕生了。第二代測序技術大大降低了測序成本,同時也大大提高了測序速度,保持了較高的準確性。以前完成壹個人類基因組的測序需要三年時間,而使用第二代測序技術只需要1周,但序列閱讀長度比第壹代測序技術短得多。表1和圖3對第壹代測序技術的特點和第二代測序成本做了簡單的比較。5.我將簡單介紹這三種主要的第二代測序技術的主要原理和特點。
照明
Illumina公司的Solexa和Hiseq應該說是目前世界上使用量最大的第二代測序機,這兩個系列的技術核心原理是壹樣的。這兩個系列的機器采用邊合成邊排序的方法,其排序過程主要分為以下四個步驟,如圖4所示。
?待測(1)DNA文庫的構建
目前,除了組裝和其他壹些特殊要求外,主要是將待測DNA樣品斷裂成200-500bp長的序列片段,在這些小片段的兩端加入不同的接頭,構建單鏈DNA文庫。
?(2)流通池
流動池是吸附流動DNA片段的通道。構建文庫時,這些文庫中的DNA在通過流通池時會隨機附著在流通池表面的通道上。每個流通池有8個通道,每個通道的表面附著有許多接頭,可以與數據庫構建過程中添加在DNA片段兩端的接頭配對(這也是為什麽流通池可以吸附數據庫構建後的DNA),並可以支持其表面DNA的橋PCR擴增。
?(3)橋接PCR擴增和變性
橋PCR利用固定在流通池表面的接頭作為模板進行橋擴增,如圖4所示。A..經過反復的擴增和變性循環後,每個DNA片段最終會在自己的位置上集中成束,每個束都含有單個DNA模板的許多拷貝。這個過程的目的是放大堿基的信號強度,以滿足測序的信號要求。
(4)排序
測序方法采用邊合成邊測序的方法。將DNA聚合酶、接頭引物和具有堿基特異性熒光標記的4-dNTP同時加入到反應體系中(如Sanger測序法)。這些dNTP的3'-OH是用化學方法保護的,所以壹次只能加壹個dNTP。dNTP加入合成鏈後,所有未使用的遊離dNTP和DNA聚合酶將被洗掉。然後加入激發熒光所需的緩沖液,用激光激發熒光信號,用光學設備記錄熒光信號。最後,通過計算機分析將光信號轉換成測序堿基。記錄熒光信號後,加入化學試劑淬滅熒光信號,去除dNTP 3’-OH保護基,以便進行下壹步測序反應。Illumina的測序技術每次只增加壹個dNTP,可以解決精確測量均聚物長度的問題。其測序誤差的主要來源是堿基置換。目前其測序錯誤率在1%到1.5%之間。以人類基因組重測序為例,30x的測序深度約為1周。
羅氏454
羅氏454測序系統是第二代測序技術商業化運營的第壹個平臺。其主要排序原理是(圖5 abc)2:
(1)DNA文庫的制備
454測序系統的文件構建方法與illumina的不同。它通過噴霧法將待測DNA斷裂成長度為300-800bp的小片段,並在片段兩端加入不同的接頭,或對待測DNA變性後進行PCR擴增,連接載體構建單鏈DNA文庫(圖5a)。
(2)乳液聚合酶鏈反應(乳液聚合酶鏈反應,實際上是壹種獨特的註水成油過程)
當然,DNA擴增過程與illumina的有很大不同。它將這些單鏈DNA與直徑約28um的水油包被的磁珠結合,孵育並退火。
乳液PCR最大的特點是可以形成大量獨立的反應空間進行DNA擴增。關鍵技術是“註水成油”(水包油)。基本過程是在PCR反應前,將含有PCR所有反應成分的水溶液註射到高速旋轉的礦物油表面,水溶液瞬間形成無數包裹在礦物油中的小水滴。這些水滴形成了壹個獨立的PCR反應空間。理想情況下,每個液滴只包含壹個DNA模板和壹個磁珠。
這些塗有水滴的珠子表面含有與接頭互補的DNA序列,因此這些單鏈DNA序列可以特異性地與珠子結合。同時,孵育體系中含有PCR試劑,因此保證了每個與磁珠結合的小片段都能被PCR獨立擴增,擴增產物仍能與磁珠結合。當反應完成後,可以破壞孵育系統,富集帶有DNA的磁珠。擴增後,每個小片段將被擴增約654.38+0萬倍,從而達到下壹次測序所需的DNA量。
(3)焦磷酸測序
在測序之前,需要用聚合酶和單鏈結合蛋白處理帶有DNA的磁珠,然後將磁珠放在PTP板上。這種板專門配有許多直徑約44um的小孔,每個小孔只能容納壹個磁珠。這樣,每個磁珠的位置被固定,以便檢測下壹個測序反應過程。
測序方法采用焦磷酸測序法,將直徑小於PTP板上孔的磁珠放入孔中開始測序反應。測序反應以磁珠上擴增的大量單鏈DNA為模板,在每個反應中加入dNTP進行合成。如果dNTP能與待測序列配對,合成後會釋放出焦磷酸基團。釋放的焦磷酸基團會與反應體系中的ATP硫酸化學酶反應生成ATP。產生的ATP和熒光素酶共氧化使測序反應中的熒光素分子發出熒光,由PTP板另壹側的CCD攝像頭記錄下來,最後通過計算機進行光信號處理得到最終的測序結果。由於每個dNTP在反應中產生的熒光顏色不同,根據熒光顏色可以判斷被檢測分子的序列。反應結束後,遊離的dNTP會在雙磷酸酶的作用下降解ATP,導致熒光猝滅,從而使測序反應進入下壹個循環。在454測序技術中,每壹個測序反應都在PTP板上的壹個獨立的孔中進行,因此可以大大減少相互幹擾和測序偏差。454技術最大的優勢是可以獲得很長的閱讀長度。目前454技術平均閱讀長度可達400bp,與illumina的Solexa和Hiseq技術有所區別。它的主要缺點是不能精確測量均聚物的長度。例如,當序列中存在類似PolyA的東西時,測序反應中會壹次性加入多個T,加入的T的數量只能通過熒光強度來估計,這可能導致結果不準確。也是因為這個原因,454技術會在測序過程中引入插入和缺失測序錯誤。
固體技術
固體測序技術是ABI公司在2007年開始投入商業測序應用的儀器。它基於連接酶法,即在連接過程中使用DNA連接酶進行測序(圖6)2,4。其原理是:
(1)DNA文庫的構建
將片段中斷,在片段兩端添加測序接頭,連接載體,構建單鏈DNA文庫。
(2)乳液PCR
固體的PCR過程和454差不多,用的是同樣的方法,但是這些珠子比454系統的小很多,只有1um。同時對擴增產物的3’端進行修飾,為下壹步測序過程做準備。3’修飾的微球將被沈積在載玻片上。在裝載微球的過程中,沈積室將每個載玻片分成1、4或8個測序區域(圖6-a)。固體系統最大的優點是每個載玻片可以容納比454更高密度的珠子,在同壹個系統中很容易實現更高的通量。
(3)連接酶測序
這壹步在固體測序中是獨特的。它不使用以前測序中常用的DNA聚合酶,而是使用連接酶。固相連接反應的底物是8堿基單鏈熒光探針混合物,這裏簡單表示為3’-XXnnnzzz-5’。在連接反應中,這些探針根據堿基互補規則與單鏈DNA模板鏈配對。探針的5’末端用四種熒光染料標記,即CY5、德克薩斯紅、CY3和6-FAM(圖6-a)。在這種8堿基單鏈熒光探針中,確定了1和第二堿基(XX)處的堿基,並根據不同種類在6-8位(zzz)添加了不同的熒光標記。這是壹種獨特的固體測序方法。兩個堿基確定壹個熒光信號,相當於壹次確定兩個堿基。這種測序方法也被稱為雙堿基測序。當熒光探針可以與DNA模板鏈連接時,它會發出代表1,2堿基的熒光信號。圖6-a和圖6-b中的比色板顯示了1,2堿基的不同組合與熒光顏色之間的關系。記錄熒光信號後,用化學方法在第5和第6個堿基之間切割,這樣可以去除熒光信號,用於下壹個位置的測序。但值得註意的是,通過這種排序方式,每次排序的位置相差5位。即第壹次是1和2,第二次是6和7...在末端被測量後,新合成的鏈應該被變性和洗脫。接下來,引物n-1用於第二次測序。引物n-1和引物N的區別在於它們與接頭配對的位置有壹個堿基的不同(圖6-a. 8)。也就是說,引物n-1在引物N的基礎上將測序位置移動到3’末端,從而可以確定第0、1、第5和第6個位置...完成第二輪測序,以此類推,直到第五輪測序,最後可以完成所有位置的堿基測序,每個位置的堿基檢測兩次。這項技術的閱讀長度為2×50bp,後續的序列拼接也比較復雜。由於雙重檢測,該技術的原始測序準確率高達99.94%,15x覆蓋準確率為99.999%,應該說是目前二代測序技術中準確率最高的。但在熒光解碼階段,由於是兩個堿基決定的熒光信號,壹旦出現錯誤,就容易產生連鎖解碼錯誤。
第三代測序技術
測序技術在最近兩三年達到了壹個新的裏程碑。PacBio公司的SMRT和牛津納米孔技術作為納米孔單分子測序技術,被稱為第三代測序技術。與前兩代相比,它們最大的特點是單分子測序,測序過程中不需要PCR擴增。
PacBio SMRT技術實際上應用了邊合成邊測序的思想,以SMRT芯片為測序載體。基本原理是:DNA聚合酶與模板結合,用四種顏色的熒光標記四種堿基(即dNTP)。在堿基配對階段,加入不同的堿基會發出不同的光,根據光的波長和峰值可以判斷輸入的堿基類型。同時,這種DNA聚合酶是實現超長閱讀長度的關鍵之壹,主要與酶活性的維持有關,主要受激光造成的損傷影響。PacBio SMRT技術的關鍵之壹是如何將反應信號與周圍遊離堿的強熒光背景區分開來。他們使用ZMW(零模式波導孔)原理:在微波爐壁上可以看到許多密集的孔。小孔的直徑很精致。如果直徑大於微波波長,能量會穿透面板,在衍射作用下泄漏出去,從而幹擾周圍的小孔。如果孔徑小於波長,能量就不會向周圍輻射,而是保持直線(光衍射原理),從而起到保護作用。同樣,在壹個反應管(SMRTCell:單分子實時反應孔)中,有許多圓形的納米孔,即ZMW(零模波導孔),外徑大於100納米,小於探測激光的波長(幾百納米)。激光從底部命中後,無法穿透微孔進入上層溶液區,能量被限制在壹個剛好能覆蓋待檢測部分的小範圍內(體積為20x10),使信號只來自這個小反應區,過多的孔外遊離核苷酸單體留在暗處,從而使背景最小化。此外,通過檢測相鄰兩個堿基之間的測序時間可以檢測到壹些堿基的修飾,即如果堿基被修飾,通過聚合酶的速度會變慢,相鄰兩個峰之間的距離會增大,這樣就可以檢測到它們之間的甲基化等信息(圖7)。SMRT技術的測序速度非常快,大約每秒10 dNTP。但同時它的測序錯誤率也比較高(這幾乎是目前單分子測序技術的通病),達到15%,不過好在它的錯誤是隨機的,不像二代測序技術那樣存在測序錯誤的偏倚,所以可以通過多次測序來有效糾正。
牛津納米孔技術公司開發的納米單分子測序技術不同於以前的測序技術,它是基於電信號而不是光信號。這項技術的壹個關鍵點是,他們設計了壹種特殊的納米孔,其中* * *的化合價與分子連接體結合在壹起。當DNA堿基通過納米孔時,它們會改變電荷,從而暫時影響流經納米孔的電流強度(每個堿基影響的電流變化幅度不同),敏感的電子設備會檢測到這些變化,以識別通過的堿基(圖8)。
去年,該公司在基因組生物技術進展(AGBT)年會上推出了第壹個商用納米孔測序儀,引起了科學界的極大關註。納米孔測序(以及其他第三代測序技術)有望解決目前測序平臺的不足。納米孔測序的主要特點是:閱讀長度很長,大約幾十kb,甚至100 kb;誤差率目前在1%-4%之間,而且是隨機誤差,而不是聚集在讀數兩端;可以實時讀取數據;高通量(30x人類基因組預計壹天完成);測序過程中初始DNA不會被破壞;樣品制備簡單、廉價。理論上也可以直接測序RNA。
納米多孔單分子測序計算的另壹大特點是不需要像傳統方法那樣對基因組進行亞硫酸氫鹽處理,就可以直接讀取甲基化的胞嘧啶。這對在基因組水平上直接研究表觀遺傳相關現象有很大幫助。而且改良方法的測序準確率可以達到99.8%,壹旦發現測序錯誤,很容易糾正。但是,目前似乎還沒有關於該技術應用的相關報道。
其他測序技術
目前還有基於半導體芯片的新壹代革命性測序技術——Ion Torrent 6。這項技術使用的是布滿小孔的高密度半導體芯片,壹個小孔就是測序反應池。當DNA聚合酶將核苷酸聚合到延伸的DNA鏈上時,會釋放出壹個氫離子,反應細胞內的PH值會發生變化,細胞下的離子受體會感受到H+離子信號,直接轉換成數字信號,從而讀出DNA序列(圖9)。——這項技術的發明者喬納森·羅斯伯格也是454測序技術的發明者之壹。它的文庫和樣品制備與454技術非常相似,甚至可以說是454的拷貝,只不過在測序過程中,通過檢測H+信號的變化來獲得序列堿基信息,而不是檢測焦磷酸的熒光顏色。與其他測序技術相比,離子洪流不需要昂貴的物理成像等設備,所以成本相對較低,體積相對較小,操作更簡單,速度也相當快。除去兩天的制庫時間,整個計算機測序可以在2-3.5小時內完成,但是整個芯片的吞吐量並不高,目前大概是10G,但是非常適合小基因組和外顯子的測序。
總結
以上簡要闡述了每壹代測序技術的原理,下面的表1和表2總結了這三代測序技術的特點。其中,測序成本、閱讀長度和通量是評價先進測序技術的三個重要指標。除了第壹代和第二代測序技術在通量和成本上的差異,測序的核心原理(除了Solid是邊連接邊測序)都是基於邊合成邊測序的思想。第二代測序技術的優點是成本大大降低,通量比第壹代大大提高,但缺點是引入的PCR過程會在壹定程度上增加測序誤差率,且有系統偏倚,閱讀長度短。第三代測序技術是為了解決第二代的缺點而開發的。其基本特征是單分子測序,不需要任何PCR過程。這是為了有效避免PCR偏倚帶來的系統誤差,同時增加閱讀長度,保持第二代技術高通和低成本的優勢。
表1:測序技術的比較
表2:主流測序儀的成本測序對比
下圖10顯示了全局序列器的當前分布。圖中熱點主要分布在中國深圳(以華大為主),南歐,西歐,美國。
參考
原文鏈接:http://www . huangshujia . me/2013/08/02/2013-08-02-an-introduction-of-ngs-sequence . html