近源物种比较组装效果
一、链接参考基因组
在工作目录下建立链接文件,方便后续使用
ln -s $datadir/Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa ref_genome.fa
将ref_genome.fa软链接文件
链接到Saccharomyces_cerevisiae.R64-1-1.dna.toplevel.fa参考基因组序列
二、比对与画图
1.列出组装的contig和scaffold文件
ls contig_*.fa scaffolds_*.fa #contig和scaffold文件不是非必需,按照组装的结果选择
其一
或全部
.
a=`ls contig_*.fa scaffolds_*.fa` #定义变量a
为组装好的contig或scaffold文件名
b=${a%*.fa} #定义变量b
为a变量内容去掉.fa
后缀的内容 eg.a=1.fa b=1
2.比对&画图
minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000#绘图参数说明:
#-i 输入比对的paf文件
#-l 显示水平线
#-s 比对的一致性用不同的颜色显示
#-t 比对一致性按target计算
#-W -H 输出图片尺寸 单位英寸
#-k 参照物种染色体数目
#-q 查询物种的最小序列长度用于显示
横坐标是参考基因组的染色体
纵坐标是组装的染色体的contig或scaffold
颜色越红说明相似性越高
三、使用for循环自动完成批量工作
for a in `ls contig_*.fa scaffolds_spades_*.fa`;
do
b=${a%*.fa} ;
minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000
done
如果想要真实的看到执行的变量和命令,可以在循环中加入echo,按照以下命令操作:
for a in `ls contig_*.fa scaffolds_spades_*.fa`;
do
ehco”
b=${a%*.fa} ;
minimap2 -t 10 -x asm5 ref_genome.fa $a > ${b}.overlaps.paf
Rscript $scriptsdir/pafCoordsDotPlotly.R -i ${b}.overlaps.paf -o ${b}.overlaps -l -s -t -k 16 -q 10000
“
done
然后复制并单独执行每一次的echo输出内容
.
以上为assemble-stat评估
QUAST评估
简化版–单独统计组装结果
quast.py contig_hifiasm.fa -o quast_out_hifiasm #简单计算N50、L50
hifi数据
quast.py
--single $hifi
这段代码有问题,谨慎使用!!!
-r ref_genome.fa -o quast_out_hifiasm -t 12 contig_hifiasm参数说明
#contigs.fa
是必须提供的,即等待评估组装质量的基因组,可以多个同时评估。
#-r
reference.fa:参考基因组
,可选;提供后有比较基因组的结果。
#-g genome.gff:参考基因组的features文件,GFF,BED等格式
#-o
quast_out:指定结果输出目录
#-t 12:线程
#–large:大基因组推荐加上这个参数,相当于-e -m 3000 -i 500 -x -k –k-mer-stats,加上这个参数后运行时间长非常多,因为有-e会做基因组的基因预测,推荐大基因组使用完整参数-m 3000 -i 500 -x -k来节省时间。
#-f:–gene-finding,用GeneMarkS(原核生物)或GeneMark-ES(真核生物)预测基因
#-e:即–eukaryote,默认是用GeneMarkS预测原核生物,这个参数指定基因组是真核生物,主要影响基因预测。类似的还有–fungus。还有许多与基因预测相关的参数可选。
#–rna-finding:用Barrnap预测ribosomal RNA genes
#-b:用BUSCO计算保守的orthologs数量(only on Linux)
#-m 500:小于指定长度的contig会被去除,默认是500bp。
#-i 65:小于指定长度的alignment会被去除,默认是65bp。
#-k:–k-mer-stats,基于k-mer计算质量参数,推荐用于大基因组。
指定测序数据来源谨慎使用!!!!
-1
--pe1
&-2--pe2
PEillumina一代和二代
测序的FASTQ文件| 选项 | 说明 | 选项 | 说明 |
| —| — |
| -1 | illumina一代测序数据 | –pacbio | pacbio测序 |
| -2 | illumina二代测序数据 | –refbam | |
| -pe12 | illumina双端测序 | –ref-sam | |
| –mp1 | mp一代 | –sam | |
| –mp2 | mp二代 | –sv-bedpe | |
| –mp12 |mp双端 | –nanopore | nano测序数据 |
| –single |指定hifi数据eg.–single $hifi | | |