近源物种比较组装效果

一、链接参考基因组

在工作目录下建立链接文件,方便后续使用

ln -s $datadir/Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa ref_genome.fa
将ref_genome.fa软链接文件链接到Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa参考基因组序列

二、比对与画图

1.列出组装的contig和scaffold文件

ls contig_*.fa scaffolds_*.fa #contig和scaffold文件不是非必需,按照组装的结果选择其一或全部.
a=`ls contig_*.fa scaffolds_*.fa` #定义变量a为组装好的contig或scaffold文件名
b=${a%*.fa} #定义变量b为a变量内容去掉.fa后缀的内容 eg.a=1.fa b=1

2.比对&画图

minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000

#绘图参数说明：
#-i 输入比对的paf文件
#-l 显示水平线
#-s 比对的一致性用不同的颜色显示
#-t 比对一致性按target计算
#-W -H 输出图片尺寸单位英寸
#-k 参照物种染色体数目
#-q 查询物种的最小序列长度用于显示

横坐标是参考基因组的染色体
纵坐标是组装的染色体的contig或scaffold
颜色越红说明相似性越高

三、使用for循环自动完成批量工作

for a in `ls contig_*.fa scaffolds_spades_*.fa`;
do
b=${a%*.fa} ;
minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000
done

如果想要真实的看到执行的变量和命令,可以在循环中加入echo,按照以下命令操作:

for a in `ls contig_*.fa scaffolds_spades_*.fa`;
do
ehco”
b=${a%*.fa} ;
minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000
“
done
然后复制并单独执行每一次的echo输出内容.

以上为assemble-stat评估

QUAST评估

简化版–单独统计组装结果

quast.py contig_hifiasm.fa -o quast_out_hifiasm #简单计算N50、L50

hifi数据

quast.py --single $hifi 这段代码有问题,谨慎使用!!! -r ref_genome.fa -o quast_out_hifiasm -t 12 contig_hifiasm

参数说明
#contigs.fa是必须提供的，即等待评估组装质量的基因组，可以多个同时评估。
#-r reference.fa：参考基因组，可选；提供后有比较基因组的结果。
#-g genome.gff：参考基因组的features文件，GFF,BED等格式
#-o quast_out：指定结果输出目录
#-t 12：线程
#–large：大基因组推荐加上这个参数，相当于-e -m 3000 -i 500 -x -k –k-mer-stats，加上这个参数后运行时间长非常多，因为有-e会做基因组的基因预测，推荐大基因组使用完整参数-m 3000 -i 500 -x -k来节省时间。
#-f：–gene-finding，用GeneMarkS(原核生物)或GeneMark-ES(真核生物)预测基因
#-e：即–eukaryote，默认是用GeneMarkS预测原核生物，这个参数指定基因组是真核生物，主要影响基因预测。类似的还有–fungus。还有许多与基因预测相关的参数可选。
#–rna-finding：用Barrnap预测ribosomal RNA genes
#-b：用BUSCO计算保守的orthologs数量(only on Linux)
#-m 500：小于指定长度的contig会被去除，默认是500bp。
#-i 65：小于指定长度的alignment会被去除，默认是65bp。
#-k：–k-mer-stats，基于k-mer计算质量参数，推荐用于大基因组。
指定测序数据来源谨慎使用!!!!

-1--pe1&-2--pe2 PEillumina一代和二代测序的FASTQ文件

| 选项 | 说明 | 选项 | 说明 |
| —| — |
| -1 | illumina一代测序数据 | –pacbio | pacbio测序 |
| -2 | illumina二代测序数据 | –refbam | |
| -pe12 | illumina双端测序 | –ref-sam | |
| –mp1 | mp一代 | –sam | |
| –mp2 | mp二代 | –sv-bedpe | |
| –mp12 |mp双端 | –nanopore | nano测序数据 |
| –single |指定hifi数据eg.–single $hifi | | |

QUAST

让我测测你的序

一、链接参考基因组

二、比对与画图

1.列出组装的contig和scaffold文件

2.比对&画图

三、使用for循环自动完成批量工作

QUAST评估

其他文章

Polish-校正

基因组评估方法与指标