FastQ文件格式

了解FASTQ和QSEQ RAW测序格式

什么是FastQ格式?

FastQ格式是一种可读的文件格式,该格式存储核苷酸碱基序列,按序列计算出的每个碱基的置信度,以及描述读取的原点的信息,将其读取到其在测序平台流量电池上的位置。大多数(如果不是全部),现代音序器会产生容易转换为FASTQ文件的FASTQ文件或文件,几乎所有专门用于处理原始序列并将FastQ文件作为输入的生物信息学工具。未经修剪,未经过滤的FASTQ文件被认为是研究中“原始”序列的标准,应始终作为研究数据的永久部分保持。

fastqVS.Fasta

FASTA是一种文件格式,是在1980年代中期开发的,用于存储带有注释的序列数据。蛋白质(单字母氨基酸代码)以及核苷酸序列都可以存储在FASTA文件中,以及序列标识符线以及涵盖基因位置和其他有趣特征的其他注释。FASTQ是FastA文件格式的扩展名,其扩展允许存储测序质量数据以及序列本身和序列ID。通常,FASTA文件是存储参考或共识序列数据的最常见标准,而FASTQ是存储原始序列数据的最常见格式。

fastqVS.QSEQ

FASTQ并不总是是原始测序数据的唯一标准,QSEQ格式提供早期竞争。在过去的几年中,FASTQ已成为QSEQ格式的明确赢家,通常仅在历史背景下讨论是一种在处理旧排序数据时可能会遇到的格式。处理QSEQ数据的典型工作流程通常始于简单地将其转换为FastQ以进行下游分析。识别QSEQ数据的最简单方法之一是,它将具有与FASTQ相同的数据相同的数据,但是每读只有4行,每读只有1行。

以下是代表给定读取的FASTQ文件中发现的测序数据的示例:

所有FASTQ文件都将包含一组读取,每个读取都有4行数据。每组的第一行将始终以“@”符号开头,通常称为序列标识符或元数据线。该行上的确切值将在排序平台或序列数据库之间有所不同,上面的示例由Illumina短阅读数据上的Casava版本1.8生成。第二线将始终包含原始核苷酸序列,仅应包含原核苷酸序列。第三行是一个以“+”开头的垫片。可能会有其他评论,但是在那里通常找不到重要数据。第四行将包含质量字符串,仅应包含质量字符串。在上面的情况下,我们可以按以下方式分解数据集:

“@”表示FastQ读取数据集的开始和全部FastQ读取数据集将始终以“@”字符开头。

“ MM123”是指机器ID。顾名思义,无论测序仪器的品牌或模型如何,该标识符都是机器独有的。

“ 002”列出了运行会话Illumina测序仪器的。

“ FC123AB”指定流动池ID这是每个流动池独有的。这允许识别哪个特定流动池样品的测序。流动池是每次测序运行(以及液体化学物质和缓冲液)的主要固体。每个流动池分为泳道(通常为Illumina),每个车道都分为瓷砖的网格模式,每个读取的位置都在瓷砖中测量。

“ 3”是指车道该样品已测序。在这种情况下,上述读取是流动池FC123AB的第3巷。

“ 2208”代表特定在车道上,样品被测序。

“ 3330”是指x坐标样品被测序的瓷砖上的位置。该值可能为负或零。

“ 9840”是指y坐标样品被测序的瓷砖上的位置。该值也可能为负或零。

“ 2”代表阅读方向这个文件。“ 1”的值表示阅读1或者向前阅读如下所示,序列和值为“ 2”的值指定该测序的读数为一个阅读2或者反向阅读从您的起始片段产生。

“ y”表示这读是否成功通过过滤器。“ y”表示样品已通过过滤,而“ n”指定样品未通过过滤。同样,通滤波器是质量的量度,并用作Illumina仪器对机器在确定读取的真实序列时的统计准确性进行的内部QC程序。

“ 18”是指被称为的参数控制位

“ atcacg”指定索引条形码序列用于在图书馆准备期间用来iD样品。这将与所使用的索引引物中发现相同,精确的序列。

序列ID行,这将始终以“@”符号与某些基本记录保存结合开始,可以使我们能够确定任何阅读的确切出处。我们能够追溯到给定的读取到生成的单个机器上的单个运行,我们可以从哪个特定流动池(在流动池中泳道以及我们读取的车道内的位置)确定。结合测序设施的记录,我们还可以确切确定何时生成测序数据。

“ atcacgaggatactagcatagatagataccctagatagtagatagatagatcatgataggagatcta”代表整个碱基对序列由Illumina仪器确定的读取。

“+”是一个角色分隔器在确定的碱基对序列(如上所述)和后续数据之间被称为A质量字符串。分隔符角色将始终自行占用整个线,然后在其下方的下一行中显示随后的质量字符串。

“IJJJJJJIIIIIJIIIIIFFFFEEEEDDDDDDCABBBBB@@00))))*)()&%!”被称为质量字符串

字符串在编程中,定义为字符的顺序序列。例如,字符串可以表示为AT6GZ+59%!。对于FastQ文件,这些字符将仅由字母数字字符和常见的标点符号组成。

优质字符串是一个字母数字字符(一个字符串)的序列,每个字符编码概率值;这种概率是指准确执行测序读取中确定的基对调用的统计可能性。此概率由PHRED质量得分。重要的是要意识到,质量字符串中的每个字符都与自己的单个基础相关联,该基础是以感兴趣的顺序确定的。因此,每个相应的基本对总是有个体质量得分。

订阅Zymo Research的电子邮件列表,以了解即将到来的初学者网络研讨会系列的生物信息学!

Baidu
map