什么是sam和bam文件?

了解SAM和BAM文件格式

萨姆vs.BAM

在生物信息学中,大量对齐读数的对准数据通常作为序列对齐和映射输出(山姆)或二进制对齐和地图(BAM)文件。对准是涉及核酸测序的许多生物信息学工作流程中的共同步骤。有许多不同的对齐器可用,具有不同类型的对齐器,它们的最佳应用以及它们如何运行,可能是多个博客帖子的主题。在他们的本质上,可以预期对准器可以以FASTQ的形式与参考基因组(通常以FASTA文件的形式)一起参加RAW序列数据,并生成包含读取的新文件以及基因组位置他们起源于此。大多数生物信息学工具接受并预期对齐导致BAM格式。通过这些文件,随着下游生物信息学分析,您可以比较基因表达,调查生物多样性,分析DNA甲基化,或研究DNA蛋白质相互作用,或者在许多其他NGS应用中。德赢vwin体育平台入口

什么是sam文件?

SAM文件是一种文本文件格式,包含映射到参考序列的各种序列的对齐信息。这些文件还可以包含未映射的序列。由于SAM文件是文本文件格式,因此人类更可读,并且将用作本节的示例。

什么是BAM文件?

BAM文件包含与SAM文件相同的信息,除非它们是二进制文件格式,这些格式不可被人类读取。另一方面,BAM文件较小,更高效地用于软件,用于使用而不是SAM文件,节省时间和降低计算和存储成本。对齐数据几乎始终存储在BAM文件中,并且分析对齐读取的大多数软件期望以BAM格式(通常使用BAM索引文件)来摄取数据,以便在本帖子中稍后讨论。本件的其余部分将是为了简单起见的BAM文件,尽管SAM和BAM文件之间的数据相同。

什么是BAM文件?

在BAM文件生成后采取的两个初始步骤是排序,然后索引它。由于用于生成BAM文件的读取(或至少应为)随机关于基因组内的位置,并且BAM文件通常由读取标识符排序,如果它们完全被排序。作为一般规则,BAM文件应作为第一步,以确保它们以用户思考的方式排序。BAM文件的排序可以通过一些不同的生物信息学应用来完成samtools.皮卡德是此类和其他几个序列分析任务的常见程序。排序BAM文件时,用于排序方法的两个选项将是序列标识符,或者由基因组坐标(通常称为位置或位置)。方法的选择将取决于下游应用,但通常通过坐标进行排序是基因组数据的正确选择。大多数期望BAM文件作为输入的软件也希望排序BAM文件,这就是为什么这通常是处理BAM文件的第一步。

BAM索引文件

BAM文件通常伴随着aBAM索引文件也称为一个b文件有类似的名字。此文件将始终小于BAM文件,并充当BAM文件的“目录”,指示BAM文件中的位置可以找到特定的读取或读取。由于文件中读取的位置可能会随排序而更改,因此在对伴随BAM文件进行排序后生成或重新生成BAM索引文件非常重要。可以使用创建BAM索引文件使用samtools.要么皮卡德。大多数期望BAM文件作为输入的软件也希望在与BAM的同一文件夹中可用具有类似名称的同伴BAI文件。

一旦生成了一个排序的BAB及其配套BAI文件,就可以使用许多可能使用的应用程序,具体取决于进行的测序类型以及在研究中被要求的科学问题。

SAM和BAM标题线

作为名称所暗示的标题线,将在SAM文件的开始时找到。它们也将在BAM文件的开头找到,尽管对于BAM文件不可被人类读取,但这较少。标题线将始终以“@”符号开头,后跟指示标题线的类型和子类型的标识符。一些最常见的例子可能如下所示:

第一行以@SQ开头,表示它是标识参考序列Contig。“SN”标签表示CONDIG名称(CHR14)和“LN”标签表示CONTIG长度(107349540基础)。在该示例中,唯一的参考序列Contig是染色体14,但大多数参考基因组将有几个ContIG和几条@SQ线来匹配。

第二行从@PG开始,指示它描述了用于生成SAM文件的程序(因此,执行对齐)。如果合并多个SAM文件,则可能存在多个@PG行,但是只有一个常见。“ID”标记是具有此SAM文件的此程序的唯一标识符(如果使用了多个版本的BWA,则必须修改ID值以避免冲突)。“PN”标识所用程序的名称(这在文件中不需要唯一),“VN”标记标识程序的确切版本。最后,“CL”标记提供用于执行对齐的命令的副本。

SAM / BAM数据线

BAM或SAM文件中的数据基本单位是BAM或SAM行,其包含读取单个NG的读取和对齐数据。BAM和SAM文件中的数据编码有略有差异,但信息本身不会在两者之间发生变化。在它们不同的位置,将显示SAM文件的格式,因为它是人类可读的。BAM将始终通过计算机程序解释,该计算机程序可以处理不同的格式并以人为可读的方式呈现。SAM线将出现这样:

闯入单个元素,它看起来更像:

1

2

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

SRR067577..2766

99.

CHR14.

73240003

60.

101米

=

73240004

102.

GCTA ......

fhg @ ...

NM:I:0

本行的元素如下:

  1. 查询名称或Qname是一个标识符,它是文件中读取的唯一,并且可用于识别任何读取的个人。对此的例外是,交配的配对结束读数都具有相同的Qname,因为它们是从同一块DNA读取的,并且必须通过其方向(可以从标志值确定。
  2. 旗帜值,有时也称为标志评分(轻微的MINNOMER)是用于表示二进制(BASE-2)编号的十进制(基本-10)编号,其数字表示与读取的对齐有关的不同真/误语句。值零值表示为false,而一个表示为true。

    十进制

    二进制

    Exp。

    意义

    1

    1

    20.

    这是一个成对的阅读

    2

    10.

    21

    此读取是对齐正确的对的一部分*

    4.

    100.

    22

    此读数未对齐

    8.

    1000

    23.

    这读是对的一部分,它的伴侣没有对齐

    16.

    10000

    24.

    这读取在反向方向上对齐**

    32.

    100000

    25.

    此读取是一对的一部分,其伴侣在反向方向上对齐**

    64.

    1000000

    26.

    这读是一对中的第一个(读1)

    128.

    10000000

    27.

    这张读数是第二对(读取2)

    256.

    100000000

    28.

    给定的对齐是次要对齐***

    512.

    1000000000

    29.

    阅读失败的质量检查(例如Illumina质量过滤)

    1024.

    10000000000

    210.

    读被标记为重复(例如PCR复制)

    2048.

    100000000000

    211.

    补充对齐(精确含义通过对准器变化)

    *

    适当的对准指示对对的两个读取彼此朝向彼此取向(一个向前,一个反向),既相同的contig,并且在彼此的预期距离内。

    **

    方向相对于用于对齐的参考序列

    ***

    读取有多个潜在的对齐;这是其中之一,但不是其中的第一个选择

    作为示例,公共标志值为99,由以下组成:

    64 + 32 + 2 + 1

    表明:

    • 读数是第一对(读1)
    • 该读取的配对端映射映射在反向方向上
    • 读取是正确对齐对的一部分
    • 阅读被配对

    标志值的一个有趣属性,由值为1表示读取的值,是配对结束对准应该始终产生奇数标志值,奇数标志值始终指示配对结束对齐。

  3. 参考名称或RNAME识别读取被对齐的参考基因组中的哪个CONTIG。此值应在其中一个@SQ行中的标题中存在。
  4. 位置或POS表示读取中的第一匹配基座的最左边映射位置(参见关于匹配的匹配项的雪茄)。位置值是基础-1,这意味着参考Contig的第一个字母被计为位置1(其他系统可以考虑该位置0)。此字段中的值为0表示占位符值,并且不是有效位置。集体,参考名称和位置通常被称为基因组坐标。
  5. 映射质量或MAPQ是一个捕获缩放的置信度评分,表明序列正确或错误地映射的可能性。此字段的值为255表示没有给出概率并且被认为是占位符价值。
  6. 雪茄或简明的特质覆盖对准报告串是指示由插入或删除的基部(或不连续性的其他原因)引起的对齐中连续或不连续性的数量和字母(以该顺序)。典型的雪茄可能出现为5m2d5m,具有下面解释的字母的含义:

    操作员

    意义

    M.

    匹配(基础可能与引用相同,但两者都存在)

    D.

    删除(基数存在于参考,但未读取)

    一世

    插入(读取读数,但不引用)

    在上述5M2D5M的情况下,读取和参考中存在5个碱基,从参考中存在的读数缺失的2个碱基,然后在两者中存在另外5个基础(请注意可能存在实际序列不匹配当基座之间的基础之间的不同之处在于,在那些5匹配基座中读取时,仅用匹配仅表示存在)。

    一些其他例子:

    ATCGAGCAGCCGCA

    参考

    ATCGAGCAGCCGCA

    阅读1

    ATCGAGC --- CGCA.

    阅读2.

    AT - AGCA --- GCA

    阅读3.

    上述序列将具有以下雪茄:

    1. 14M:这个序列完美地匹配
    2. 7M3D4M:阅读中有3个基地缺失
    3. 2m2d4m3d3m:有2个底座和3个基地删除,由4个碱基分开

    ATCGAG - Cagccgca.

    参考

    ATCGAG - Cagccgca.

    阅读1

    Atcgagagcagccca.

    阅读2.

    上述序列将具有以下雪茄:

    1. 14M:这个序列完美地匹配
    2. 6m2i8m:读取中存在2个基础,但不是参考

    ATCGAGCAGCCGCA

    参考

    ATCGAGCAGCCGCA

    阅读1

    atcttttttttgca.

    阅读2.

    上述序列将具有以下雪茄:

    1. 14M:这个序列完美地匹配
    2. 14M:中间的长套“T”不匹配仍然被认为是一个匹配的位置
  7. 伴侣的参考名称或者Rnext类似于字段3(参考名称),并遵循相同的规则,除了它描述了读取的配对端配对(如果有一个)。要保存空间,如果与参考名称值相同,则此值将是“=”,这应该是最常的情况。
  8. 伴侣的位置或pnext类似于字段4(位置),并按照与该字段相同的规则。
  9. 模板长度或tlen表示长度模板读取映射的序列(此字段有时对读取长度混淆,它不是,但通常会等于值)。具有多个插入的读取可以具有比读取长度更小的模板长度,而具有多个删除的读取可以具有比读取长度长的模板长度。在与基因组DNA参考的RNA或cDNA对准的情况下,由于内含子的存在,模板长度可以是短读数的数万个碱基。
  10. 顺序或SEQ是实际的读取序列。通常应遵循源FASTQ的序列线
  11. 质量字符串或者Qual应该遵循源FASTQ文件的质量字符串,并进行验证缩放。
  12. 预定义的标签这些将是在SAM / BAM文件标准中预定义的标签,其提供关于对齐或读取的其他信息。

注册即将到来的初学者网络系列的生物信息学!

Baidu
map