bam文件与sam文件|为什么我的samtools把sam文件转换为bam文件之后bam文件是0字节

⑴ fasta,bam和gff格式的文件是用来描述什么类型的数据,每种格式的基本组成是什么

bam 和 gff不是很清楚,fasta知道一点。fasta是基因序列文件,第一行是序列的描述或者名称,用'>'符号开头。然后换行,第二行开始是基因序列,一般DNA的话就是A,G,C,T四种字符组成。有的FASTA第二行是不换行的,有的是换行的。这点需要注意。

⑵ accep.Chain().add("lor",new Loger());里面new起到什么作用

具体利用15个样品,39个分析工具,120种结合方式,490次分析的结果。针对各个工具,作者都描述了其性能表现,做出了庞大的比较分析。并在次基础上,作者构建了一个综合性的RNA-seq analysis protocol,即RNACocktail,囊括了这些工具,免费提供给他人下载使用,以帮助研究人员更好地进行生物学分析,具体流程如下图:

总的来看,A-G最多,T-C次之,其它相对较少。

genome-aware、multiple-samples和pooled-samples这三种方法比GIREMI方法在检测T-C的时候比例较高。TopHat结合GIREMI在高水平的RNA编辑方面比其它技术好,而RASER在不同的RNA编辑水平都比GIREMI 和genome-aware好。FDR可用来衡量RNA-编辑检测的准确性,STAR和HISAT2比对鉴定的RNA编辑FDR相对较低,但是预测除了更多的A-G,RASER的敏感度高,也就是说在输入的可靠SNV中检测的比例高。

在速度上genome-aware比GIREMI快10倍左右,而multiple-samples和pooled-samples的方法却比较消耗计算资源。

八 融合基因检测

融合基因,即由于染色体易位或者反向剪切使得两个基因的全部或部分串联起来构成的新基因。在研究各种癌症类型的起因和发展的时候融合基因显得很重要。目前的检测工具有JAFFA、STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse等,以及long reads方法IDP-fusion和Iso-Seq,通过对已经证实的71个癌症细胞系的检测表明:

short-reads-based方法:FusionCatcher最为敏感却准确,SOAPfuse也不错,STAR-Fusion最快(比其它方法快10倍),FusionCatcher和TopHat Fusions的计算资源要求最大。

long-read-based方法:DP fusion最准确,

九Run-time analysis

也就是运行时间分析,Alignment-free方法比基于比对最快的方法StringTie-HISAT2还要快10倍以上(这里应该是指的从clean reads到差异结果)。而Cufflinks-TopHat和long-read-based又比StringTie-HISAT2慢一个数量级。

十A high-accuracy pipeline

通过以上评估,文章作者总结并编写了一个RNA-seq流程,即RNACocktail。作者利用自己的流程对Cufflinks-TopHat、StringTie-HISAT2和Salmon-SMEM进行了差异基因比较和差异基因富集比较。StringTie-HISAT2和Salmon-SMEM结果较好,其top过表达基因富集到了breast cancer cell line相关的基因集中。而Cufflinks-

TopHat没有基因富集或者富集的基因与样品特性无关。

此外,Cocktail采用工具很广发,其比Galaxy和Grape等流程综合性更高。

最后,作者通过使用RNAcocktail流程研究得出:the choice of tools and computational

approaches had a large impact on the accuracy and runtime of the analysis(一般可以理解)。所以,对于如何选择工具进行RNA-seq分析还是要看具体的条件和目的,以及对结果的预测。

⑶ 怎么在下一代测序数据bam文件中产生indel标记

可以采用变异检测软件生成vcf文件,文件中有indel标记,比如samtools,gatk,varscan等

⑷ 如何在Linux服务器上安装使用bowtie

(一)安装bowtieBowtie可以在个人计算机上使用,也可以在CSC服务器上使用终端连接。请参阅以下文档的第一部分,了解如何在笔记本电脑上安装Bowtie。特别是对他们的计算机没有管理员权限的那些应该确保软件的正确安装和功能。Bowtie也可以在服务器计算机上远程使用。我们将提供临时帐户访问CSC,但你将需要一个安全Shell终端程序进行通信。默认情况下,Mac和Linux上都有这样的程序,但需要安装Windows。普遍的实现是PuTTY。即使终端程序不用于读取映射,也将需要其他练习,并且应该可用。Bowtie的安装:从下载页面下载相应的版本(Linux,Mac或Win,小编使用的是在Linux下进行)。将zip文件解压缩到新的目录中,并转到该目录。下载的bowtie包装包含大肠杆菌基因组的预先建立的指数,以及从该基因组模拟的一组1000个35bp的读数。要使用Bowtie对齐这些读取,请键入以下命令。bowtiee_colireads/e_coli_1000.fqmap_result.txt如果你收到错误消息"commandnotfound",请尝试在"bowtie"(./bowtie)之前添加"./"。(二)使用Bowtie(1)Mapping要使用Bowtie对齐示例读取,请发出以下命令。bowtiee_colireads/e_coli_1000.fqmap_result.txt如果你收到错误消息"commandnotfound",请尝试在"bowtie"(./bowtie)之前添加"./"。"e_coli"与"indexes/e_coli"相同。你可以在文本编辑器中打开map_result.txt。每行都是一个读取对齐。对齐读取的名称显示在第一列中。对于Mac和Linux,使用"少"会更好。lessmap_result.txt#extrareadingksandfurtheroptionsinBowtie.我们来看看Bowtie在1中使用的一些不同的选项,报告所有有效的对齐方式与一些不匹配。./bowtie-a-v2e_coli–suppress1,5,6,7-cATGCATCATGCGCCAT-a/–all报告每个读取或对的所有有效对齐(默认值:off)-v最多不相匹配的报告对齐-c查询序列在命令行–suppress上以默认输出模式抑制输出列2限制对齐$./bowtie-k3-v2e_coli–suppress1,5,6,7-cATGCATCATGCGCCAT-k每次读取或配对时报告有效对齐(默认值:1)。3不匹配排名$./bowtie-a–best-v2e_coli–suppress1,5,6,7-cATGCATCATGCGCCAT所有相同的对齐方式按最佳到最坏的顺序进行报告4只有最不匹配$./bowtie-a–best–strata-v2–suppress1,5,6,7e_coli-cATGCATCATG(2)配对对齐当使用-1和-2选项指定正确配对的读取文件时,Bowtie可以对齐配对端读取(对于原始,FASTA或FASTQ读取文件)./bowtiee_coli-1reads/e_coli_1000_1.fq-2reads/e_coli_1000_2.fqmap_paired.txtSAMtools(http://samtools.sf.net)是一套用于存储,操纵和分析对齐方式的工具,例如Bowtie输出的对齐方式。bowtie-Se_colireads/e_coli_1000.fqec.sam我们可以再次检查sam文件以查看与txt文件的区别(也是在r4,r5中未映射的读取)。接下来,我们将SAM文件转换为BAM以准备排序。samtoolsview-bS-oec.bamec.sam接下来,我们对BAM文件进行排序,samtoolssortec.bamec.sorted这样我们就简单的对bam文件中的基因组进行配对对齐。

⑸ 在使用samtools这个软件的时候,其中mpileup 与sort 是什么意思啊

1、sortsort对bam文件进行排序。Usage: samtools sort [-n] [-m <maxMem>] <in.bam> <out.prefix> -m 参数默认下是 500,000,000 即500M(不支持K,M,G等缩写)。对于处理大数据时,如果内存够用,则设置大点的值,以节约时间。-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序(即header)和序列从左往右的位点排序。例子:$ samtools sort abc.bam abc.sort$ samtools view abc.sort.bam | less -S2、samtools还有个非常重要的命令mpileup,以前为pileup。该命令用于生成bcf文件,再使用bcftools进行SNP和Indel的分析。bcftools是samtool中附带的软件,在samtools的安装文件夹中可以找到。最常用的参数有2: -f 来输入有索引文件的fasta参考序列; -g 输出到bcf格式。用法和最简单的例子如下Usage: samtools mpileup [-EBug] [-C capQcoef] [-r reg] [-f in.fa] [-l list] [-M capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam […]]$ samtools mpileup -f genome.fasta abc.bam > abc.txt$ samtools mpileup -gSDf genome.fasta abc.bam > abc.bcf$ samtools mpileup -guSDf genome.fasta abc.bam | \ bcftools view -cvNg – > abc.vcfmpileup不使用-u或-g参数时,则不生成二进制的bcf文件,而生成一个文本文件(输出到标准输出)。该文本文件统计了参考序列中每个碱基位点的比对情况;该文件每一行代表了参考序列中某一个碱基位点的比对结果。比如:scaffold_1 2841 A 11 ,,,…,…. BHIGDGIJ?FFscaffold_1 2842 C 12 ,$,,…,….^I. CFGEGEGGCFF+scaffold_1 2843 G 11 ,,…,….. FDDDDCD?DD+scaffold_1 2844 G 11 ,,…,….. FA?AAAA<AA+scaffold_1 2845 G 11 ,,…,….. F656666166*scaffold_1 2846 A 11 ,,…,….. (1.1111)11*scaffold_1 2847 A 11 ,,+9acggtgaag.+9ACGGTGAAT.+9ACGGTGAAG.+9ACGGTGAAG,+9acggtgaag.+9ACGGTGAAG.+9ACGGTGAAG.+9ACGGTGAAG.+9ACGGTGAAG.+9ACGGTGAAG %.+….-..)scaffold_1 2848 N 11 agGGGgGGGGG !!$!!!!!!!!scaffold_1 2849 A 11 c$,…,….. !0000000000scaffold_1 2850 A 10 ,…,….. 353333333mpileup生成的结果包含6行:参考序列名;位置;参考碱基;比对上的reads数;比对情况;比对上的碱基的质量。其中第5列比较复杂,解释如下:1 ‘.’代表与参考序列正链匹配。2 ‘,’代表与参考序列负链匹配。3 ‘ATCGN’代表在正链上的不匹配。4 ‘atcgn’代表在负链上的不匹配。5 ‘*’代表模糊碱基6 ‘^’代表匹配的碱基是一个read的开始;’^'后面紧跟的ascii码减去33代表比对质量;这两个符号修饰的是后面的碱基,其后紧跟的碱基(.,ATCGatcgNn)代表该read的第一个碱基。7 ‘$’代表一个read的结束,该符号修饰的是其前面的碱基。8 正则式’\+[0-9]+[ACGTNacgtn]+’代表在该位点后插入的碱基;比如上例中在scaffold_1的2847后插入了9个长度的碱基acggtgaag。表明此处极可能是indel。9 正则式’-[0-9]+[ACGTNacgtn]+’代表在该位点后缺失的碱基;

⑹ 为什么我的samtools把sam文件转换为bam文件之后,bam文件是0字节

1、sort sort对bam文件进行排序。 Usage: samtools sort [-n] [-m ] -m 参数默认下是 500,000,000 即500M(不支持K,M,G等缩写)。对于处理大数据时,如果内存够用,则设置大点的值,以节约时间。 -n 设定排序方式按short reads的ID排序。

⑺ 为什么我的samtools把sam文件转换为bam文件之后,bam文件是0字节

1、sort sort对bam文件进行排序。 Usage: samtools sort [-n] [-m ] -m 参数默认下是 500,000,000 即500M(不支持K,M,G等缩写)。对于处理大数据时,如果内存够用,则设置大点的值,以节约时间。 -n 设定排序方式按short reads的ID排序。

⑻ bam文件怎么string

bam2fasta的转变方式:samtools view SL3003_SL3004_100122-hg18.bam | \awk '{OFS="\t"; print ">"$1"\n"$10}' – > SL3003.fastasam2fasta的转变方式cat *.sam | awk '{print ">"$1"\n"$10}' > *.fasta

⑼ 参考基因组哪个文件中可以查到 每条染色体长度

染色体是由DNA和蛋白质两种物质组成,DNA分子为双螺旋结构,像螺旋形的梯子,一条染色体上一般有一个DNA分子;DNA分子上决定生物性状的小片段叫基因,基因决定生物的性状.一个DNA分子上有许多个基因.故答案为:DNA分子;许多.

⑽ 如何用 samtools 和 bcftools call snp

samtools 之前博文已经介绍过一些常用的方法。本篇主要说下如何利用samtools 和 bcftools来call snp。和其他工具一样,bam文件都要经过处理(另见博文)。假如对C17样本进行call snp, 数据为:LC17-1_L002.sorted.rmp.rg.recal.bamLC17-2_L006.sorted.rmp.rg.recal.bamLC17-3_L002.sorted.rmp.rg.recal.bamRC17-1_L003.sorted.rmp.rg.recal.bamRC17-2_L004.sorted.rmp.rg.recal.bamRC17-3_L004.sorted.rmp.rg.recal.bam数据准备好后,执行命令:samtools mpileup -P ILLUMINA -f RAP_cDAN.fasta -EgD \LC17-1_L002.sorted.rmp.rg.recal.bam LC17-2_L006.sorted.rmp.rg.recal.bam \LC17-3_L002.sorted.rmp.rg.recal.bam RC17-1_L003.sorted.rmp.rg.recal.bam \RC17-2_L004.sorted.rmp.rg.recal.bam RC17-3_L004.sorted.rmp.rg.recal.bam \> samtools_result.bcf命令解释:mpileup 是samtools中call snp的工具。-P 指platform, 现在短reads测序一般是ILLUMINA。-f 后跟参考序列,序列文件必须提前建好index。-E, Extended BAQ(base alignment quality) computation, 如果有的话,会提高检测出MNPs的灵敏度,当然会轻微的减下特异度。-g Compute genotype likelihoods and output them in the binary call format(BCF).-D Output per-sample read depth> 是将结果保存到samtools_result.bcf文件中最终得到的samtools_result.bcf 是二进制文件,到此完成了call snp的第一步。得到bcf文件以后,第二步执行命令:bcftools view -cNegv samtools_result.bcf > samtools_result.vcf命令解释:veiw 是bcftools中主要的方法,‘Convert between BCF and VCF , call variant candidates and estimate allele frequencies.’-c Call variants using Bayesian inference .-N Skip sites where the REF field is not A/T/G/C. 一般的参考基因组序列都是由四种碱基组成,不知道还能有什么? 难道是没出来部分的N 么 ? 也可以不加这个参数, 我测试过,这种情况非常非常少。-e 其实也可以不加, 因为如果前面有-c 那么-e就默认被使用了。‘Perform max-likelihood inference only,including estimating the site allele frequency, testing Hardy-Weinberg equlibrium and testing associations with LRT’.-g Call per-sample genotypes at variant sites.(用-c的方法)-v output variant site only .我们当然只关心编译位点。


赞 (0)