RNA-Seq是什么?

次世代测序(NGS)和RNA测序(RNA-seq)的范围正在迅速发展和扩大。

RNA-Seq是什么?

分子生物学的核心教义将RNA描述为DNA和蛋白质之间的中间分子,然而这一观点正变得越来越过时。这种意识形态的限制大大低估了RNA, RNA-seq这一不断发展的领域试图阐明RNA在调节细胞过程中的许多作用,不仅是作为中间分子,还包括它在细胞中的其他功能。RNA-seq为研究人员提供了一扇窗口,可以了解细胞在不同生理或病理状态或不同发育阶段的RNA环境,以确定细胞对这些变化的反应。RNA-seq允许高通量的NGS,提供关于给定样本中不同RNA种类的定性和定量信息。

有许多不同类型的rna序列。直接RNA序列-直接测序细胞中的RNA。这种方法避免了由互补DNA (cDNA)合成、聚合酶链反应(PCR)或适配器连接引入的偏差。然而,RNA是一种不稳定的分子,所以大多数RNA-seq工作流程开始于RNA转化为cDNA。全部RNA-seq序列样本中存在的所有rna。3 ' -mRNA seq产生细胞内基因表达的摘要。小RNA-seq涉及RNA分离过程中的大小选择步骤,并查看重要的非编码RNA转录物,如细胞游离RNA和miRNAs。单细胞RNA-seq提供了单细胞水平的表达谱,以避免混合细胞组测序的潜在偏差。转录组学研究样本中的信使rna种类。核糖体足迹检测在RNA分离时哪些RNA分子被积极翻译。 There are still more less common technologies available for RNA-seq. The large variety of techniques can be attributed to the fact that RNA-seq technology can be adapted to answer many different types of research questions.

为什么使用RNA-Seq ?

在RNA-seq之前,检测基因表达的最佳技术是微阵列。微阵列由载玻片上数千个确定的点组成,其中包含已知序列,当样本与已知结构结合时,这些点会发出荧光。RNA-seq是一种更多功能和更健壮的技术。它并不局限于已知的基因组序列。RNA-seq不依赖于特定的探针,因此非模型或新生物可以在没有参考基因组的情况下进行测序。RNA-seq可以确定新的转录本,替代剪接变异,单核苷酸多态性(SNPs),插入/删除和其他RNA变异。

与依赖探针的微阵列相比,探针和引物的缺乏也降低了RNA-seq运行的偏倚。随着技术的不断发展,RNA-seq也变得越来越便宜。此外,与微阵列相比,RNA-seq具有较少的背景信号,因为读取可以映射到基因组的区域。RNA-seq可以比微阵列更精确地测定RNA表达水平,微阵列依赖于相对数量,而不是RNA-seq所能做到的绝对数量。绝对量化允许RNA-seq实验之间的比较,而微阵列的相对量化使这成为不可能。

正如前面提到的,有各种各样的RNA-seq技术来回答不同的问题。RNA-seq的一些常见应用包括差异基因表达分析、新基因鉴定和剪接变异分析。为了适应各种各样的应用,RNA-seq的工作流程可以有很大的不同,但所有RNA-seq都有三个主要步骤:文库准备、测序和分析。

图书馆准备

RNA提取

RNA-seq工作流程的第一步是从样本中提取感兴趣的RNA。有很多提取RNA的方法,所以选择你最喜欢的方法,结果是高质量的,无dna的RNA。

互补脱氧核糖核酸的合成

在RNA被提取后,它被逆转录为第一链cDNA。这就形成了RNA和它的互补DNA分子的双重结构。在分子水平上,DNA比RNA更稳定,因此DNA通常是测序工作流程的首选分子。

选择

既然我们有了cDNA,我们就可以进行选择性的选择。选择将包括目标分子的富集或过度丰富的分子的消耗。这一步对于下游效率非常重要。由于细胞RNA是80-95%的核糖体RNA (rRNA),因此从总RNA样本中尽可能多地去除rRNA是至关重要的。过多的转录本,如rRNA和珠蛋白,将在测序运行中占据绝大多数的读取,这是对金钱、试剂和读取深度的浪费。为了进行优化的RNA测序,最好是去除这些过多的转录本。有三种主要的方法可以从感兴趣的靶点获得大量的测序reads并去除低重要性的转录本:靶点富集、基于探针的耗尽和酶的耗尽。

目标浓缩是如何工作的?

增加感兴趣转录本测序读数的一种方法是丰富样本。一种常用的靶富集方法是mRNA选择,通常通过聚d(T)磁珠进行。胸腺嘧啶(T)分子链以共价结合在磁珠上。d(T)寡核苷酸与成熟mrna 3 '端聚(A)尾互补。见下图逐级图示。步骤(1)将小珠及其寡核苷酸添加到总RNA样本中。步骤(2)mRNA与小珠上的寡核苷酸(T)链短暂结合。步骤(3)保留珠子,用磁铁将它们靠在管的一侧收集,而其余的样品被冲走。步骤(4)将mRNA从珠中洗脱,留下纯mRNA提取液,加工入文库。这个过程可能会使样本中的转录本池产生偏差。 If transcripts are very long or handling of the samples is rough, the transcripts can shear leading to overrepresentation of the 3’ end of the mRNAs. This method also fails to enrich other potential RNAs of interest such as microRNAs (miRNA) and long non-coding RNAs (lncRNA) which do not usually have a poly(A) tail.

图显示聚DT珠

基于探针的rRNA损耗是如何工作的?

基于探针的rRNA损耗依赖于与磁珠结合的DNA探针,磁珠与rRNA序列互补。步骤(1)将绑定的探针加入到总RNA样本中。步骤(2)将互补rRNA转录本瞬时结合到磁珠上的探针上。步骤(3)然后用磁铁将珠子与样品的其余部分分离。rRNA仍然附着在珠子上。步骤(4)将上清液,而不是珠子,转移到新的清洁管中。剩下的溶液已经耗尽了rRNA,可以继续进行下游处理。基于探针的rRNA消耗的一个主要问题是它是生物体特有的。

不同生物的rRNA序列不同,所以每个生物都需要自己的探针来有效地消耗样本中的rRNA。探针板目前在商业上可用于各种模型生物。然而,非模型生物进一步复杂化了这一过程,因为它们需要开发自己独特的探针面板。使用珠基杂交程序(无论是mRNA富集还是rRNA耗尽)时要考虑的另一个因素是,该过程涉及杂交反应的漫长潜伏期,有时需要彻夜孵育。以探针为基础的rRNA损耗在市场上可以买到,如Illumina Ribo-Zero rRNA损耗套件,带有人类、小鼠、大鼠和细菌rRNA的探针面板。

图显示TreSEQ rRNA

酶的rRNA损耗是如何工作的?

酶促rRNA的消耗不需要使用探针。相反,酶的消耗涉及到RNA和cDNA之间杂交反应的动力学。

步骤(1)我们的cDNA-RNA杂交体变性为单链。
步骤(2)丰度较高的结构,如rrna,更有可能在反应混合物中与匹配的cdna杂交。当它们杂交时,它们形成rRNA-cDNA双链。
步骤(3)双链的形成允许酶结合,然后从双链中降解cDNA,只留下rRNA。随着反应的进行,相对于它们的cDNA伙伴,高浓度的rRNA结构推动了反应的进一步发展,直到rRNA和其他丰富的结构从样本中有效地消耗掉。
步骤(4)在酶降解高丰度分子后,剩下的构建物是目标RNA分子。因为这个反应依赖于分子动力学,反应的输入越高,反应进行的越快,导致输入和孵化时间成反比关系。

这种无探针的方法是有益的,因为不需要单独购买特定的生物面板;一个套件可以做到所有这些!这是普遍的。这对于涉及非模型生物的项目尤其有益,这些项目以前需要开发特定于生物的探针面板。酶法的另一个好处是减少消耗偏差。基于探针的方法只消耗绑定到探针的结构,而酶的方法首先消耗最丰富的结构,效率最高。酶的消耗在商业上可作为Zymo-Seq RiboFree总RNA文库试剂盒

图显示ZymoSEQ RiboFree

适配器连接和索引

一旦我们的cDNA合成完成,我们感兴趣的转录本不再被rrna和过多的结构所挤走,就到了将适配器连接到cDNA上的时候了。适配器是短的合成寡核苷酸,附着在cDNA链的末端。适配器有两个主要功能:结合转录本进行测序和启动位点进行测序。适配器序列与测序流池中片段共价结合的序列互补。流池是一个玻璃载玻片,带有涂有与我们的适配器序列互补的两种不同类型寡核苷酸的草坪的通道。这允许我们的转录本暂时绑定到流细胞进行测序。适配器的第二个功能是作为测序中所用聚合酶的启动位点。

在适配器被连接到cDNA分子后,许多文库制剂经历一个索引的过程。建立索引需要对分子进行PCR扩增,同时在转录本上添加一个独特的序列,通常称为“条形码”。该条形码允许在收集样本后的测序过程中识别转录本。池化是一种以已知浓度混合大量不同样品的过程,这样它们就可以被添加到流池中并同时测序。汇集样本通常是为了节省时间和金钱。在适配器连接和索引后,样品准备测序!

步骤(1)适配器连接和索引的过程包括将合成的寡核苷酸添加到我们的目标cDNA分子中。步骤(2)将具有唯一条形码的适配器连接到cDNA靶标上。常用的是Illumina适配器,它们被指定为P5和P7。P5和P7可以添加到cDNA的5 '或3 '端,这取决于特定的文库制备试剂盒。步骤(3)将另一个适配器添加到cDNA分子的另一端。步骤(4)PCR扩增cDNA及其新衔接体,增加新形成文库的浓度。然后对这些放大的文库进行量化以确定其浓度。然后标准化库的浓度,以确保库的排序是均匀的,并且在排序过程中没有一个库被过度表示。

图显示ZymoSEQ RiboFree
综合排序

有一些不同的测序技术,如桑格测序,以及更多的高通量选择,如焦磷酸测序,离子流和纳米孔测序。我们将重点关注Illumina的合成测序技术,因为它仍然是最流行的测序方法。合成测序分为两部分,即聚类生成和实际测序过程。

集群生成是如何工作的?

我们的样本现在都有索引,这意味着它们有一个独特的条形码标记,允许我们在多个样本汇集在一起后识别样本。将汇集的样品添加到测序器中的流池中。步骤(1)经改编的转录本可与草坪的互补寡核苷酸杂交,从而与流细胞结合。流细胞寡核苷酸作为聚合酶的引物,以产生杂交片段的补体。

然后双链分子变性,原始模板被洗掉,只留下新合成的链直接与流池结合。步骤(2)链现在折叠,适配器区域与流细胞上的另一种寡核苷酸杂交,聚合酶使用新的寡核苷酸作为引物再次创建互补链。步骤(3)现在有一个互补股的双股桥。步骤(4)桥变性,得到2个单链拷贝的转录本,都与流细胞结合。步骤(5)这个过程被称为桥式扩增,它被重复很多次,导致在流细胞中产生许多相同分子的副本,这些就是簇。

合成测序是如何工作的?

现在我们已经生成了簇,反向链被劈开并冲走。这就使得向前的链开始测序。3 '端被阻塞,以防止不必要的启动。测序始于第一个测序引物的延伸,产生读1,或正向读。这个read“读取”原片段5 '到3 '方向上的寡核苷酸序列。步骤(1)根据模板的序列,将荧光标记的互补核苷酸一次一个碱基添加到链上。每个核苷酸都用不同颜色的荧光信号标记。每个核苷酸都是可逆终止子,这意味着它被纳入链后,不能再加入另一个。步骤(2)将核苷酸添加到链上后,光源激发簇,发出荧光信号并由测序机读取。

发射波长允许计算机确定哪个碱基被添加到链中,这是一个碱基调用。产生的信号的强度将决定基本呼叫准确性的置信度得分。步骤(3)调用完成后,可逆终止子被裂解,链准备好加入下一个核苷酸。每次合并一个核苷酸和读取信号的过程是重复的,循环的次数决定了读取的长度。集群中所有相同的链都被同时读取。集群测序是在一个大规模的并行过程中进行的,这意味着一次性产生数百万个读取,而不是像桑格测序那样一次处理单个扩增子。

完成读取1后,将读取的产品冲洗掉。现在,一个索引读取引物被混合到模板中,索引以与第一次读取相同的方式读取。这允许对特定样本的读取进行排序。在索引被读取后,读取的产物被冲走,模板的3 '端被去保护,这样模板就可以折叠并再次绑定到流单元的第二个oligo上。第二个索引的读取方式与第一个索引相同。读取索引后,聚合酶再次延伸寡核苷酸,形成第二个链桥。然后这些链被线性化,前面的链被劈开并冲走。

同样,反向模板的3 '端被阻塞。添加第二个测序引物,通过循环添加荧光核苷酸生成read 2,或反向read,就像第一个read一样。整个过程产生数百万个读取,代表流单元中的所有片段。现在,测序器生成的读数就可以进行分析了。

图显示ZymoSEQ RiboFree

分析基础知识

既然已经对样本进行了测序,现在是时候对测序运行产生的大量原始数据进行分析了。原始数据由机器作为FASTQ或QSEQ文件输出。这些是纯文本文件,使用字母、数字和标点符号表示排序运行的数据。序列报告为A、T、C或g四个核苷酸的单一字符表示,如果测序器不确定某个碱基,它将称该核苷酸为“N”。生成的每个基本调用都给出一个质量字符串或质量评分。这个质量字符串指的是音序器在序列中做出正确基调用的准确性。质量字符串表示与准确基本调用的可能性相关的概率。概率值也被称为Phred质量分数。Phred分数是对测序过程中每一个碱基测定的数值。质量差的读数被删除或修剪,在校准过程中不使用。

现在我们的碱基调用序列已经经过了质量检查,我们可以开始校准的生物信息学过程。首先,根据库准备索引阶段引入的唯一条形码,对池样本库中的序列进行分离。对于每个示例,具有相似或完全匹配的基本调用扩展的读取将在本地聚类。然后,正向和反向链的读(上面描述的读1和读2)配对创建连续序列。这些连续序列(也称为contigs)与参考基因组对齐以验证识别。不明确的对齐可以通过这个配对的末端测序信息来解决。从这一代contigs和比对到参考基因组的信息现在可以用于分析,包括snp或插入缺失(indels)的识别,用于绝对定量的读取计数,以及系统发育或宏基因组分析。

随着高通量样品处理技术越来越普及,NGS领域正在迅速发展。NGS现在既具有成本效益又具有时间效益。RNA测序是这一领域涌现的强大的新工具之一。RNA-seq正在迅速扩展我们对细胞过程的知识,而且随着该技术的应用和可用性越来越广泛,它还将继续这样做。从样本到序列的过程将继续简化,尽管它将继续包括通过添加适配器为感兴趣的结构进行测序的准备工作,实际的测序过程本身,以及最后的测序运行中生成的数据的质量检查和分析。这一经过验证的真实过程将继续为剪接变异、差异基因表达、系统发育、新基因识别、转录组学等细节提供见解。

从Zymo Research了解RNA-Seq分析服务:

了解更多

Baidu
map