RNAseq 分析流程

其实现在RNA seq的处理方法已经很成熟了,同时版本也很多。在这里我结合Sun lab流程,整理了一种ktrim+STAR+featureCount的方法供大家讨论。希望可以对大家有些许帮助。

预处理

第一步是对转录组数据进行预处理,主要是质控和取接头。相对于常规流程来说,这里我们提供了在预处理这一步就去重复。先去重复的好处就是比对速度可以大大提升,同时对后续影响也基本上没有。这里我们使用的是ktrimkrmdup

1
2
3
4
sid=sample1

/path/to/ktrim -o $sid.ktrim -t 4 -1 ./${sid}_R1.fq.gz -2 ./${sid}_R2.fq.gz
/path/to/Krmdup -a $sid.ktrim.read1.fq -b $sid.ktrim.read2.fq -o $sid.rmdup

对比

STAR 构建索引

首先你需要下载 参考基因组 hg38.p13.fa和 注释文件 Homo_sapiens.GRCh38.v101.gtf

1
2
3
4
5
6
7
/path/to/STAR_2.7.9a \
--runThreadN 32 --runMode genomeGenerate \
--limitGenomeGenerateRAM 64000000000 --genomeSAindexNbases 6 \
--genomeDir hg38.HBV.EBV \
--sjdbOverhang 149 \
--sjdbGTFfile ./Homo_sapiens.GRCh38.v101.gtf \
--genomeFastaFiles ./hg38.p13.fa

Mapping

这里使用的是STAR进行比对。同时也可以参考TCGA的RNAseq处理参数。

1
2
3
4
5
6
7
8
9
10
11
12
/path/to/STAR_2.7.9a --genomeDir $STARindex \
--runThreadN $thread \
--readFilesIn $sid.rmdup.read1.fq $sid.rmdup.read2.fq \
--outFileNamePrefix STAR/$sid. \
--outSAMtype BAM Unsorted \
--outSAMunmapped None \
--outSAMattributes Standard \
--outSAMstrandField intronMotif \
--alignIntronMin 20 --alignIntronMax 100000

samtools sort -@ $thread -o STAR/$sid.srt.bam STAR/$sid.Aligned.out.bam
samtools index -@ $thread STAR/$sid.srt.bam

这里主要程序就处理完了。当然你可以生成.bw文件来放到UCSC 或者 igv上进行可视化。

定量分析

这里使用的是featureCount进行处理。其中可以写一个脚本将$sid.featureCount中的TPMCountsFPKM提取出来以备后续使用。

1
2
featureCounts -a $GFF -o  $sid.featureCount -T 32 STAR/$sid.srt.bam
gzip $sid.featureCount

差异分析

大多使用Deseq2 进行差异分析

待续…

基因富集

David

待续…

Author

Se

Posted on

2023-10-26

Updated on

2023-10-26

Licensed under

Comments