有参考基因组的转录组生物信息分析模板

9.2 差异表达基因列表

基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品，分析我们采用DESeq（Anders et al, 2010）进行分析：该分析方法基于的模型是负二项分布，第 i 个基因在第 j 个样本中的 read count 值为Kij，则有

Kij ～ NB(μij,σ

2ij

)

对于无生物学重复的样品，先采用TMM对read count数据进行标准化处理，之后用DEGseq进行差异分析。差异表达基因列表如下：

表9.2 差异基因列表

gene_id readcount_HS readcount_HT 2835.13040784994 3.08090973423561 872.135924228591 143.509885523625 log2FoldChange -9.4224 9.0233 -4.5455 3.295 pval padj Novel05868 4.13191705589116 Novel05608 1603.13964277834 Novel08190 37.3477675965147 Novel05435 1408.60468719178 4.6547e-140 1.139e-135 8.0171e-124 9.8089e-120 1.1332e-40 1.0151e-31 9.2435e-37 6.21e-28 差异基因列表主要包括的内容：

(1) Gene_id: 基因编号

(2) readcount_Sample1：校正后样品1的readcount值 (3) readcount_Sample2：校正后样品2的readcount值 (4) log2FoldChange: log2(Sample1/Sample2) (5) pvalue(pval): 统计学差异显著性检验指标

(6) qvalue(padj): 校正后的pvalue。qvalue越小，表示基因表达差异越显著

9.3 差异表达基因筛选

用火山图可以推断差异基因的整体分布情况，对于无生物学重复的实验，为消除生物学变异，我们从差异倍数和显著水平两个水平进行评估，对差异基因进行筛选，阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验，由于DESeq已经进行了生物学变异的消除，我们对差异基因筛选的标准一般为: padj < 0.05。

图9.3 差异基因火山图

有显著性差异表达的基因用红色点表示；横坐标代表基因在不同样本中表达倍数变化；纵

坐标代表基因表达量变化差异的统计学显著性

9.4 差异基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能；因为这些同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的RPKM值为表达水平，做层次聚类(hierarchical clustering)分析，不同的颜色的区域代表不同的聚类分组信息，同组内的基因表达模式相近，可能具有相似的功能或参与相同的生物学过程。除了差异基因表达量rpkm层次聚类分析，我们对还分别用H-cluster、

K-means和SOM等三种方法对差异基因的相对表达水平值log2(ratios)进行聚类。不同的聚类算法分别将差异基因分为若干cluster，同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。

图6.4 差异基因聚类图

左图为整体rpkm层次聚类图，以log10RPKM值进行聚类，红色表示高表达基因，蓝色表示低表达基因。颜色从红到蓝，表示log10(RPKM)从大到小；右图为log2(ratios)折线图，每个子图中的灰色线条表示一个cluster中的基因在不同实验条件下相对表达量的折线图，蓝色线条表示这个cluster中的所有基因在不同实验条件下相对表达量的平均值的折

线图，x轴表示实验条件，y轴表示相对表达量

有参考基因组的转录组生物信息分析模板

下载：有参考基因组的转录组生物信息分析模板.doc

最近浏览

最新搜索

站内搜索