其实现在RNA seq的处理方法已经很成熟了,同时版本也很多。在这里我结合Sun lab流程,整理了一种ktrim
+STAR
+featureCount
的方法供大家讨论。希望可以对大家有些许帮助。
预处理
第一步是对转录组数据进行预处理,主要是质控和取接头。相对于常规流程来说,这里我们提供了在预处理这一步就去重复。先去重复的好处就是比对速度可以大大提升,同时对后续影响也基本上没有。这里我们使用的是ktrim 和 krmdup。
1 2 3 4
| sid=sample1
/path/to/ktrim -o $sid.ktrim -t 4 -1 ./${sid}_R1.fq.gz -2 ./${sid}_R2.fq.gz /path/to/Krmdup -a $sid.ktrim.read1.fq -b $sid.ktrim.read2.fq -o $sid.rmdup
|
对比
STAR 构建索引
首先你需要下载 参考基因组 hg38.p13.fa
和 注释文件 Homo_sapiens.GRCh38.v101.gtf
1 2 3 4 5 6 7
| /path/to/STAR_2.7.9a \ --runThreadN 32 --runMode genomeGenerate \ --limitGenomeGenerateRAM 64000000000 --genomeSAindexNbases 6 \ --genomeDir hg38.HBV.EBV \ --sjdbOverhang 149 \ --sjdbGTFfile ./Homo_sapiens.GRCh38.v101.gtf \ --genomeFastaFiles ./hg38.p13.fa
|
Mapping
这里使用的是STAR进行比对。同时也可以参考TCGA的RNAseq处理参数。
1 2 3 4 5 6 7 8 9 10 11 12
| /path/to/STAR_2.7.9a --genomeDir $STARindex \ --runThreadN $thread \ --readFilesIn $sid.rmdup.read1.fq $sid.rmdup.read2.fq \ --outFileNamePrefix STAR/$sid. \ --outSAMtype BAM Unsorted \ --outSAMunmapped None \ --outSAMattributes Standard \ --outSAMstrandField intronMotif \ --alignIntronMin 20 --alignIntronMax 100000 samtools sort -@ $thread -o STAR/$sid.srt.bam STAR/$sid.Aligned.out.bam samtools index -@ $thread STAR/$sid.srt.bam
|
这里主要程序就处理完了。当然你可以生成.bw
文件来放到UCSC 或者 igv
上进行可视化。
定量分析
这里使用的是featureCount进行处理。其中可以写一个脚本将$sid.featureCount
中的TPM
、Counts
、 FPKM
提取出来以备后续使用。
1 2
| featureCounts -a $GFF -o $sid.featureCount -T 32 STAR/$sid.srt.bam gzip $sid.featureCount
|
差异分析
大多使用Deseq2 进行差异分析
待续…
基因富集
David
待续…