机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 4584|回复: 0
打印 上一主题 下一主题

nanopore三代测序分析—covid19

[复制链接]
跳转到指定楼层
楼主
发表于 2020-3-24 13:24:49 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 shenzijie 于 2020-3-24 13:36 编辑

前言
现况
第三代测序技术原理主要分为两大技术阵营:
第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。
第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。

数据下载conda search --channle bioconda sra # 搜索sra相关工具\#sra工具包里面包含了很多工具,可以用来管理和操作sra数据库的资源,可以处理多种测序平台的数据。prefetch用来下载sra数据,只需给定SRA号即可;fastq-dump是最常用的,可以将SRA数据转换为fastq格,也可以直接下载数据。
conda install --channel bioconda sra-tools
  • 数据下载
prefetch SRR11267570
  • 数据解压
nohup fastq-dump --gzip --split-3 SRR11267570.sra &
fastq预处理
conda create -n nanopore python=3.6  # porechop是发现和去除由Oxford Nanopore产生的reads接头数据的工具
conda install -y --channel bioconda nanofilt samtools nanoporeporechop -i SRR11267570.fastq.gz -o SRR11267570.fastq.no_adoptor.gz & # 去除接头序列# 去除低质量碱基,将reads平均Q值低于7的去除
# 随着测序芯片的发展和basecalling的准确度提升,nanopore Q值不断在改进中# 过滤 -q 参数设置为多少比较合适一般根据你进行的分析来决定# 对于物种鉴定等reads检测的,一般 -q 7 即可
cat SRR11267570.fastq.no_adoptor.gz | NanoFilt -q 7 -l 500 --headcrop 50 | gzip > SRR11267570.clean.NanoFilt.fastq.gz
mapping
二代测序时代利用bwa软件完成mapping,而相比于illumina测序,nanopore的测序读长更长,测序错误更多,因此必须采取新的比对策略bwa软件的作者李恒开发除了适用于三代测序数据(pacbio,nanopore)的比对工具minimap。目前minimap2版本,minimap2与bwa比对策略不同,要适应长读长,高测序错误的数据。
该文章参考基因组为:MT007544.1,地址为:https://www.ncbi.nlm.nih.gov/nuccore/MT007544

conda install -y --channel bioconda  minimap2minimap2 -d MT007544.1.min MT007544.1.fa & # 构建索引
minimap2 -ax map-ont MT007544.1.min SRR11267570.clean.NanoFilt.fastq.gz > SRR11267570.sam &
# 比对到参考基因组
bam文件处理
conda install -y --channel bioconda samtoolsamtools view -Sb -@ 4 SRR11267570.sam -o SRR11267570.bam & #转换为bam文件
samtools sort -@ 4 -m 8G -O bam -o SRR11267570.sorted.bam SRR11267570.bam &
samtools faidx MT007544.1.fa
给参考基因组建立索引
samtools index SRR11267570.sorted.bam
表达矩阵
conda install -y -c bioconda subreadnohup featureCounts -T 5 -t CDS -g gene_id -a MT007544.1.gtf -o SRR11267570_counts.txt SRR11267570.sorted.bam &  # -p说明是双端测序 -t指定对那一部分进行count
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-11-2 00:30 , Processed in 0.073932 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表