机器学习和生物信息学实验室联盟
标题:
nanopore三代测序分析—covid19
[打印本页]
作者:
shenzijie
时间:
2020-3-24 13:24
标题:
nanopore三代测序分析—covid19
本帖最后由 shenzijie 于 2020-3-24 13:36 编辑
前言
现况
第三代测序技术原理主要分为两大技术阵营:
第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。
第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。
数据下载
工具下载 文章中查到项目的BigProject为PRJNA608224:[color=#366d6
https://www.ncbi.nlm.nih.gov//bioproject/608224
conda search --channle bioconda sra
# 搜索sra相关工具\
#sra工具包里面包含了很多工具,可以用来管理和操作sra数据库的资源,可以处理多种测序平台的数据。prefetch用来下载sra数据,只需给定SRA号即可;fastq-dump是最常用的,可以将SRA数据转换为fastq格,也可以直接下载数据。
conda install --channel bioconda sra-tools
数据下载
prefetch SRR11267570
数据解压
nohup fastq-dump --gzip --split-3 SRR11267570.sra &
fastq预处理
conda create -n nanopore python=3.6
# porechop是发现和去除由Oxford Nanopore产生的reads接头数据的工具
conda install -y --channel bioconda nanofilt samtools nanoporeporechop -i SRR11267570.fastq.gz -o SRR11267570.fastq.no_adoptor.gz &
# 去除接头序列
# 去除低质量碱基,将reads平均Q值低于7的去除
# 随着测序芯片的发展和basecalling的准确度提升,nanopore Q值不断在改进中
# 过滤 -q 参数设置为多少比较合适一般根据你进行的分析来决定
# 对于物种鉴定等reads检测的,一般 -q 7 即可
cat SRR11267570.fastq.no_adoptor.gz | NanoFilt -q 7 -l 500 --headcrop 50 | gzip > SRR11267570.clean.NanoFilt.fastq.gz
mapping
二代测序时代利用bwa软件完成mapping,而相比于illumina测序,nanopore的测序读长更长,测序错误更多,因此必须采取新的比对策略bwa软件的作者李恒开发除了适用于三代测序数据(pacbio,nanopore)的比对工具minimap。目前minimap2版本,minimap2与bwa比对策略不同,要适应长读长,高测序错误的数据。
该文章参考基因组为:MT007544.1,地址为:
https://www.ncbi.nlm.nih.gov/nuccore/MT007544
conda install -y --channel bioconda minimap2minimap2 -d MT007544.1.min MT007544.1.fa &
# 构建索引
minimap2 -ax map-ont MT007544.1.min SRR11267570.clean.NanoFilt.fastq.gz > SRR11267570.sam &
# 比对到参考基因组
bam文件处理
conda install -y --channel bioconda samtoolsamtools view -Sb -@ 4 SRR11267570.sam -o SRR11267570.bam &
#转换为bam文件
samtools sort -@ 4 -m 8G -O bam -o SRR11267570.sorted.bam SRR11267570.bam &
samtools faidx MT007544.1.fa
给参考基因组建立索引
samtools index SRR11267570.sorted.bam
表达矩阵
conda install -y -c bioconda subreadnohup featureCounts -T 5 -t CDS -g gene_id -a MT007544.1.gtf -o SRR11267570_counts.txt SRR11267570.sorted.bam &
# -p说明是双端测序 -t指定对那一部分进行count
欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/)
Powered by Discuz! X3.2