微生物基因组信息学:OTU与ASV

在分析目标微生物基因组测序时,一种不同的方法确定序列的起源比典型的alignment-based方法是必需的。这是因为基因的起源一个放大目标基因是已知的目标是确定其分类学起源基于一个潜在的小数量的变化相对于类似的类群。在全基因组测序的背景下,一个小数量的单核苷酸变异(SNVs)音序器造成的错误不太可能严重混淆一个调整器和几乎没有影响的最终归属序列。

有针对性的测序,比较多个相似的序列,而不是对齐多个基因组是主要的操作,有可能被错误SNVs抱愧蒙羞。这会导致张冠李戴的序列导致要么检测相似,但不正确的生物体,或错误发现新的有机体。幸运的是,开发了两种策略的影响降到最低目标排序错误,每个都有自己的优点,缺点和特质。在这篇文章和视频,我们将回顾这些方法背后的逻辑,他们的应用程序,相对的优势和劣势。


OTU聚类是什么?

为了最小化目标序列的测序仪误差的风险,最初开发的聚类方法。聚类方法是基于相关的想法/类似的生物会有相似的目标基因序列和罕见的测序错误将有一个微不足道的贡献,如果有的话,这些集群的共识序列,或操作分类单元(辣子鸡)1

有三种基本方法从测序数据,生成辣子鸡集群通常是使用97%的相似性阈值序列生成的身份。这种方法带有的风险可以分为多个相似物种单一OTU,与他们的个人识别迷路的抽象的集群。或者,有些人尝试的方法要求非常高水平的序列身份失去多样性集群的风险降到最低,使用阈值接近100%,但这将创建一个重大风险识别新物种测序错误和虚假的多样性2

OTU方法读取到一个代表性集群相似,可能包含不止一个生物样品。
OTU方法读取到一个代表性集群相似,可能包含不止一个生物样品。

Reference-free OTU集群

最简单的方法来理解,尽管大多数计算复杂的实施,新创集群。新创聚类不需要参考数据库并创建OTU集群完全从观察序列。这个方法是并行计算昂贵,难以开展,导致潜在的非常长的计算时间大量的测序数据。此外,新创聚类时,必须重复数据中添加或删除的研究。这是因为相同的序列可能集群不同取决于其他序列研究中被发现。

Reference-based OTU集群

得多的计算效率是closed-reference集群的聚类方法。如名称所暗示的,这个方法使用一个参考数据库的目标基因序列已知的类群和比较发现序列。这种方法也将减少测序错误的影响,因为少量的错误SNVs不太可能改变最终的共识序列从整个OTU。此外,测序读应该足够错误以防止与参考序列聚类,closed-reference集群将会下降,从进一步分析。这种方法,以及计算快,允许简单的对比研究使用匹配的参考数据库,可以允许新数据的快速整合进入研究之前无需重新分析结果。但是,这种方法带来的缺点完全依赖于参考序列,因此受到任何错误或偏见的参考数据库。这些偏见可能是在研究样本较小的问题类型,如人类粪便,健壮的数据库中表示。

另一方面,任何小说分类单元从这个来源,将丢失。如果一个更不寻常或全新的使用示例源,闭源聚类可能是不恰当的,因为参考数据库不太可能有合适的序列已经沉积了许多在场的类群。小说以避免损失的序列,open-reference集群开发,可以迅速聚集到一个参考序列数据库集群的方式类似于closed-reference和剩余序列是集群的方式类似新创

ASV分析是什么?

虽然OTU试图模糊聚类方法相似的序列为一个抽象共识序列,从而最大限度地减少任何测序错误的影响读取,池内的扩增子序列变异(ASV)方法尝试去相反的方向。ASV的方法将首先确定哪些具体序列被阅读和每个具体序列多少次读。这些数据将被结合测序错误模型运行,使类似读的比较,以确定一个给定的概率在给定频率不是由于音序器的错误。从本质上说,这将创建一个假定值的序列,相当于零假设的精确序列被测序错误的结果。

这个计算后,根据一些阈值序列是过滤信心,留下准确的序列的集合定义统计的信心。因为这些是准确的序列,生成没有集群或参考数据库,ASV结果很容易对比研究使用相同的目标区域。此外,给定目标基因序列应该产生相同的ASV和给定的ASV,作为一个精确的序列,可以比作一个参考数据库以更高分辨率允许更精确的识别物种水平甚至可能超越3

ASV的方法识别单一,完全支持序列,在统计上是存在于样本。
ASV的方法识别单一,完全支持序列,在统计上是存在于样本。

OTU与ASV比较

有很多参数字段应该朝着ASV的一个方法4、5。如上所述,ASV更精确的方法可以提供一个重要的优势微生物的识别。此外,他们可以提供更详细的图片样品的多样性。OTU,作为一个集群的多个相似的序列可能是“真实”的序列可以包含多个样本或错误,类似的微生物物种集中到一个单一的单位。ASV没有这个问题,即使是单个碱基序列的差异将导致一个独特的ASV和更详细的照片一个给定样本的多样性。

OTU与ASV权衡

之间存在一个潜在的重要的权衡方法OTU代计算易于生成其中一个选择和比较的辣子鸡,另选择缺乏reference-bias,第三种方法,结合了两个中间结果。Closed-reference辣子鸡计算快速和容易生成和样本之间的比较和研究,但携带重要参考小说序列的偏差和损失的风险。新创辣子鸡计算慢,但将保留所有序列参考样本和没有风险的偏见,因为他们是reference-free生成的。

Open-reference辣子鸡躺在这些方法之间,这取决于样品的性质。Reference-based OTU方法仍然是一个有效的选择大,以人群为基础的研究如人类微生物组计划6,贡献了巨大的见解通过大量的招生对象和样本的分析和全面的描述,预期的类群已经明确,证据确凿的参考数据库。这些样本类型的参考偏见的担忧不会特别高,计算效率和易于添加新的数据和比较样本有助于控制计算资源需求。相比之下,分析微生物生活在一个前所未知的,远程水下洞穴在亚马逊水条件极不寻常的矿物含量、pH值和温度几乎肯定会需要大量新创OTU一代。这种类型的场景肯定会做好迅速采取ASV的一个方法,便于比较和添加新数据,以及只允许接受高信任度,具体序列参考数据库。

OTU与ASV性能对混杂因素

ASV方法有很多优势在处理困难的样本或试图正确常见混淆的情况下,影响目标序列分析或微生物分析。当试图研究low-abundance序列,辣子鸡通常被认为是更容易保留罕见的序列,尽管这是在更高的假辣子鸡检测的成本7。在ASV测定项目,DADA28已被证明是最敏感的low-abundance序列9。在样本污染的环境中,使用稀释的系列研究ZymoBIOMICS微生物群落的标准能够显示ASV-based方法能更好地推断出样本污染物生物在这两个群体的本质认识asv的确切性质允许最好的识别样本和污染物的生物5

最后,嵌合体的创建是一个常数公害目标序列的研究,而与优化图书馆可以减少生产,很难完全消除。asv的序列,允许简单,检测嵌合序列没有参考数据库的潜在偏压效应。OTU-based嵌合体检测需要输入的“模糊”共识OTU序列和序列,可以避免打电话太类似于母序列,最终他们可能会加入OTU相同。因为ASV的一个是一个精确的序列,可以将嵌合ASV的确切或接近精确的孩子两个确切的父母更普遍序列相同的样本,与一个父母贡献左边和右边一个父贡献的妄想。这些属性可以使嵌合体的识别使用不普遍、更普遍的对齐、相同的样本8

虽然OTU方法有微生物社区服役多年,几年,仍可能会发现使用在特定的情况下,越来越多的证据表明这是得不偿失的目标排序的未来在于ASV的方法。ASV的方法有一些成熟的生物信息学的应用程序进行分析8、10、11用自己的优点和缺点。随着社区走向方法与再现性和易于对比研究,增加的重要性、方法只会增加。这将是尤其明显,更多新奇的来源进行了分析,reference-based OTU偏见和集群具有显著的缺点新创集群计算和可比性方面的有缺点,而在ASV-based方法存在显著的优势。

了解更多关于微生物标准中引用这个博客

了解更多
引用:
  1. Blaxter M,曼J,查普曼T, et al。定义操作使用DNA条形码数据分类单位。费罗斯反式R Soc Lond B Sci杂志。2005年10月29日,360 (1462):1935 - 43。doi: 10.1098 / rstb.2005.1725
  2. Kunin V, Engelbrektson Ochman H,罕见的生物圈Hugenholtz p .皱纹:焦磷酸测序错误会导致人工通胀多样性估计。环境Microbiol。1月2010;12(1):118 - 23所示。doi: 10.1111 / j.1462-2920.2009.02051.x
  3. 卡拉汉BJ,黄J, Heiner C,等。高通量全长16 s rRNA的扩增子测序基因单核苷酸分辨率。核酸研究。2019;47 (18):e103-e103。doi: 10.1093 / nar / gkz569
  4. 卡拉汉BJ, McMurdie PJ,福尔摩斯SP。准确的序列变异应该替换操作分类单位标志基因数据分析。ISME日报。2017/12/01 2017;11 (12):2639 - 2643。doi: 10.1038 / ismej.2017.119
  5. 卡鲁索V,歌X,阿斯奎斯M,小跟班l .微生物组序列推理方法的性能与不同生物质环境。mSystems。4 (1):2019;e00163-18。doi: 10.1128 / mSystems.00163-18
  6. Gevers D,骑士R,彼得摩根富林明,等。人类微生物组项目:健康人类微生物组的社区资源。公共科学图书馆杂志。2012;10 (8):e1001377-e1001377。doi: 10.1371 / journal.pbio.1001377
  7. 埃德加钢筋混凝土。微生物群落多样性的精度估计关闭,open-reference辣子鸡。PeerJ。2017;5:e3889。doi: 10.7717 / peerj.3889
  8. 卡拉汉BJ, McMurdie PJ, Rosen MJ,汉族啊,约翰逊AJ,福尔摩斯SP。DADA2:高分辨率从Illumina公司扩增子数据样本推断。Nat方法。7月2016;13 (7):581 - 3。doi: 10.1038 / nmeth.3869
  9. 接近JT,道格拉斯·通用Comeau, Langille MGI。去噪Denoisers:一个独立评估微生物组序列的纠错方法。PeerJ。2018;6:e5364-e5364。doi: 10.7717 / peerj.5364
  10. 阿米尔,麦当劳D, Navas-Molina JA等。解模糊迅速解决社区单核苷酸序列模式。mSystems。2017年3 - 4月;2 (2)doi: 10.1128 / mSystems.00191-16
  11. 埃德加钢筋混凝土。UNOISE2:提高纠错Illumina公司16 s及其扩增子测序。bioRxiv。2016:081257。doi: 10.1101/081257
Baidu
map