生信流程搭建(一)fastqc与fastp软件的安装与使用

阿里云2000元红包!本站用户参与享受九折优惠!

一、fastqc

FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,其官网为:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

1.1 安装

fastqc是在Java环境下运行的;所以在安装fastqc之前,Linux下要有相应的Java运行环境(JRE).且java的版本应该在1.8.0版以上
java的安装

  • 下载安装最新版本的Java,注意要下载带有JRE的版本。

方法1:直接官网下载安装包


直接官网下载安装包

方法2:命令行

$nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip  1>fastqc.o 2>fastqc.e
$unzip fastqc_v0.11.8.zip
$cd FastQC/
$chmod 755 fastqc
$vi ~/.bashrc    #添加环境变量路径:export PATH="/mnt/d/App/BioInfo_Learning/Fastqc/FastQC:$PATH"
$source ~/.bashrc #重新加载配置

1.2 使用

  • 帮助文档
fastqc -h
  • 主要格式:
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
  • 主要参数
-o 用来指定输出文件的所在目录,注意是不能自动新建目录的.输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩。
-f 用来强制指定输入文件格式,默认会自动检测。
-c 用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个contaminant文件里搜索。
-q 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况
-t 选择程序运行的线程数

运行结束后生成两个文件一个.html网页文件,一个是.zip压缩文件。

我们使用浏览器打开html文件,然后显示这样的:

1.3 结果报告的数据转化

二、 fastp

文章参考:

2.1 fastp介绍

对于下机的 FASTQ 数据需要进行质控和预处理,以保证下游分析输入的数据都是干净可靠的。通常我们都是使用 FASTQC 等软件进行质控,使用 cutadapt 软件去除接头,使用Trimmomatic 等软件进行剪裁,然后使用一些自已开发的脚本进行过滤。这一过程可能需要使用多个软件,相当繁琐,而且速度较慢,这些软件大多又不支持多线程

fastp可以仅仅扫描 FASTQ 文件一次,就完成比FASTQC + cutadapt + Trimmomatic 这三个软件加起来还多很多的功能,而且速度上比仅仅使用 Trimmomatic 一个软件还要快 3 倍左右,因为它使用 C++开发,处处使用了高效算法,而且完美支持多线程!

该项目的 github 地址请戳:
https://github.com/OpenGene/fastp

2.2 功能特点

fastp 软件会生成 HTML 格式的报告,而且该报告中没有任何一张静态图片,所有的图表都是使用 JavaScript 动态绘制,非常具有交互性,想要看一下样板报告的,可以去以下链接:http://opengene.org/fastp/fastp.html

而且软件的开发者还充分考虑到了各种自动化分析的需求,不但生成了人可读的HTML 报告,还生成了程序可读性非常强的 JSON 结果,该 JSON 报告中的数据包含了 HTML 报告 100%的信息,而且该 JSON 文件的格式还是特殊定制的,不但程序读得爽,你用任何一款文本编辑器打开,一眼过去也会看得明明白白。想要看一下 JSON 结果长什么样的,可以去以下链接:http://opengene.org/fastp/fastp.json

PS:这点特别棒

2.3 下载与安装

$wget http://opengene.org/fastp/fastp
$chmod a+x ./fastp

也可以从源代码进行编译,需要使用 git 工具或者直接在网页上下载 release 的源代码,以 git 下载最新的代码为例:

$git clone https://github.com/OpenGene/fastp.git
$cd fastp
$make
$sudo make install

2.4 使用

单端测序数据(single-end,SE)

fastp -i in.fq -o out.fq
  • 即使用小写的 i 和小写的 o 分别指定 input 和 output 文件
  • 生成 out.fq,还会生成两个文件 fastp.html 和 fastp.json
  • fastp 会同时统计过滤前(raw data)和过滤后(clean data)的质量信息,以方便你分析过滤前后数据质量发生了什么变化

双端测序数据(paired-end,PE)

fastp -i in.R1.fq -o out.R1.fq -I in.R2.fq -O out.R2.fq
  • -i 和-o 还是用来指定 read1 的输入了输出,而大写的-I 和-O(注意是喔,而不是零)则是用于指定read2的输入和输出,其他都保持不变

  • 对于 PE 数据开发了更多的算法,比如基于 overlap 分析进行碱基校正等功能,就是只有 PE 数据独享的。

  • fastp 对于输入和输出都支持 gzip 压缩,使用方法也很简单,只要文件名的末尾带有.gz,就会被认为是 gzip 压缩文件,会启用 gzip 对输入输出进行压缩和解压处理,例如以上 PE 的例子,如果是压缩的,就可以是以下命令:

fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz

2.5 其他功能简介

  • 过滤
    该功能默认是启用的,但可以使用-Q参数关闭。使用-q 参数来指定合格的 phred 质量值,-u 参数来指定最多可以有多少百分比的质量不合格碱基

    默认启用了 read 长度过滤,但也可以使用-L 参数关闭。使用-l 参数指定最低要求一个 read 有多长

  • 接头处理
    fastp 默认启用了接头处理,但是可以使用-A 命令来关掉。fastp 可以自动化地查找接头序列并进行剪裁

  • 滑窗质量裁剪
    fastp 支持像 Trimmomatic 那样对滑动窗口中的碱基计算平均质量值,然后将不符合的滑窗直接剪裁掉。使用-5 参数开启在 5’端,也就是 read 的开头的剪裁,使用-3 参数开启在 3’端,也就是 read 末尾的剪裁。使用-W 参数指定滑动窗大小,默认是 4,使用-M 参数指定要求的平均质量值,默认是 20,也就是 Q20。

  • PE 数据的碱基校正

  • 全局剪裁

  • polyG 剪裁

  • 分子标签 UMI 处理
    该功能默认没有启用,需要使用-U 参数开启,另外需要使用–umi_loc 来指定 UMI所在的位置,

  • 输出文件切分

2.6 质控报告解读

  • fastp 的报告在单一文件中同时包含了过滤前和过滤后的统计结果,如果是 PE 数据,则同时包含了 read1和 read2 的统计结果。
  • fastp 会生成 HTML 的报告和 JSON格式的报告。HTML 报告的默认文件名可以通过-h 参数修改,JSON 报告的默认文件名可以通过-j 参数修改。而且 fastp 报告还有一个标题通过-R 参数修改为你想要的标题。

质量含量分布曲线


质量含量分布曲线

一共有 5 条曲线,分别是 A/T/C/G 和 mean。

碱基含量分布曲线

和质量分布曲线类似,碱基含量分布曲线也是按照每一个 cycle 来的,显示了每一个位置的碱基含量。如下图所示:


碱基含量分布曲线

fastp同时显示了A/T/C/G/N/GC 的每一个位置的比例和总的比例。

KMER 统计表格

fastp 对 5 个碱基长度的所有组合的出现次数进行了统计,然后把它放在了一张表格中,表格的每一个元素为深背景白字,背景越深,则表示重复次数越多。这样,一眼望去,就可以发现有哪些异常的信息。


KMER 统计表格

从上面的 KMER 表格中,我们可以发现,GGGGG 的颜色特别深,从鼠标移上去之后显示的信息中我们可以发现它的出现次数是平均次数的 12.8 倍,这是不正常的,因为 GGGGG 的正常倍数应该在 1 倍左右。可以过滤掉这种 polyG,让数值较多地回归正常。

过表达序列

过表达序列(overrepresetned sequence )的分析,而且不但供了这些 overrepresented sequence 的序列个数和占比,还提供了他们在测序cycles 中的分布情况


过表达序列

2.7 报告json文件数据转换

基于python的Pandas库,其实很容易就能转换成想要的质控文件表格格式

https://www.jianshu.com/p/c8e9c9d32a4e

Python量化投资网携手4326手游为资深游戏玩家推荐:《《执剑之刻》【祈愿神降】武士信息公开 饭纲、青波征一郎概率UP 新增UR保底机制

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论