图8.1 定量饱和曲线检查分布图
横坐标代表定位到基因组上的reads数占总reads数的百分比,纵坐标代表定量误差在
15%以内的基因的比例
8.2 RNA-Seq相关性检查
生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个为后续的差异基因分析所需要的。样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下)。具体的项目操作中,我们要求R2至少要大于0.8,否则需要对样品做出合适的解释,或者重新进行实验。此部
分,我们同时计算了spearman相关系数和kendall-tau相关系数作为参考,这两个主要是针对顺序变量的相关系数,即秩相关。
图8.2 RNA-Seq相关性检查
R^2:pearson相关系数的平方; rho:spearman相关系数; tau:kendall-tau相关系数
8.3 均一性分布检查
理想条件下,对于RNA-seq技术来说,测序序列(reads)之间为独立抽样并且reads在所有表达的转录本上的分布应该呈现均一化分布。然而很多研究表明,很多偏好型的因素都会影响这种均一化的分布(Dohm et al., 2008)。例如,在RNA-seq建库过程中,片段破碎和RNA反转录的顺序不一样会导致RNA-seq最终的数据呈现严重的3’偏好性。其他因素还包括转录区域的GC含量不同、随机引物等等,并且生物体内从5’或者3’的降解过程同样会导致不均一性分布。
图8.3 不同表达水平的转录本的reads密度分布图
High:高表达量转录本;Medium:中度表达量转录本;Low:低表达量转录本;横坐标为
距离转录本5’端的相对位置(以百分比表示),纵坐标为覆盖深度的平均值
9 基因差异表达分析
9.1 基因表达水平对比
通过所有基因的RPKM的分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品,最终的RPKM为所有重复数据的平均值。
图9.1 不同实验条件下基因表达水平比对图
RPKM分布图(左图)的横坐标为log10(RPKM), 纵坐标为基因的密度。RPKM盒形图(右图)的横坐标为样品名称,纵坐标为log10(RPKM),每个区域的盒形图对五个统计量(至上而下分
别为最大值,上四分位数,中值,下四分位数和最小值)