有参考基因组的转录组生物信息分析模板 下载本文

9.2 差异表达基因列表

基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品,分析我们采用DESeq(Anders et al, 2010)进行分析: 该分析方法基于的模型是负二项分布,第 i 个基因在第 j 个样本中的 read count 值为Kij,则有

Kij ~ NB(μij,σ

2ij

)

对于无生物学重复的样品,先采用TMM对read count数据进行标准化处理,之后用DEGseq进行差异分析。差异表达基因列表如下:

表9.2 差异基因列表

gene_id readcount_HS readcount_HT 2835.13040784994 3.08090973423561 872.135924228591 143.509885523625 log2FoldChange -9.4224 9.0233 -4.5455 3.295 pval padj Novel05868 4.13191705589116 Novel05608 1603.13964277834 Novel08190 37.3477675965147 Novel05435 1408.60468719178 4.6547e-140 1.139e-135 8.0171e-124 9.8089e-120 1.1332e-40 1.0151e-31 9.2435e-37 6.21e-28 差异基因列表主要包括的内容:

(1) Gene_id: 基因编号

(2) readcount_Sample1:校正后样品1的readcount值 (3) readcount_Sample2:校正后样品2的readcount值 (4) log2FoldChange: log2(Sample1/Sample2) (5) pvalue(pval): 统计学差异显著性检验指标

(6) qvalue(padj): 校正后的pvalue。qvalue越小,表示基因表达差异越显著

9.3 差异表达基因筛选

用火山图可以推断差异基因的整体分布情况,对于无生物学重复的实验,为消除生物学变异,我们从差异倍数和显著水平两个水平进行评估,对差异基因进行筛选,阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验,由于DESeq已经进行了生物学变异的消除,我们对差异基因筛选的标准一般为: padj < 0.05。

图9.3 差异基因火山图

有显著性差异表达的基因用红色点表示;横坐标代表基因在不同样本中表达倍数变化;纵

坐标代表基因表达量变化差异的统计学显著性

9.4 差异基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式;通过将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能;因为这些同类的基因可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的RPKM值为表达水平,做层次聚类(hierarchical clustering)分析,不同的颜色的区域代表不同的聚类分组信息,同组内的基因表达模式相近,可能具有相似的功能或参与相同的生物学过程。 除了差异基因表达量rpkm层次聚类分析,我们对还分别用H-cluster、

K-means和SOM等三种方法对差异基因的相对表达水平值log2(ratios)进行聚类。不同的聚类算法分别将差异基因分为若干cluster,同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。

图6.4 差异基因聚类图

左图为整体rpkm层次聚类图,以log10RPKM值进行聚类,红色表示高表达基因,蓝色表示低表达基因。颜色从红到蓝,表示log10(RPKM)从大到小;右图为log2(ratios)折线图,每个子图中的灰色线条表示一个cluster中的基因在不同实验条件下相对表达量的折线图,蓝色线条表示这个cluster中的所有基因在不同实验条件下相对表达量的平均值的折

线图,x轴表示实验条件,y轴表示相对表达量