有参考基因组的转录组生物信息分析模板 下载本文

(1) 将测序序列整段比对到外显子上。 (2) 将测序序列分段比对到两个外显子上。

我们统计了实验所产生的测序序列的定位个数(Total Mapped Reads)及其占clean reads的百分比,其中包括多个定位的测序序列个数(Multiple Mapped Reads)及其占总体(clean reads)的百分比,以及单个定位的测序序列个数(Uniquely Mapped Reads)及其占总体(clean reads)的百分比。 3.1 Reads与参考基因组比对情况统计

表3.1 Reads与参考基因组比对情况一览表

Sample name Total reads Total mapped Multiple mapped Uniquely mapped Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs HS1 70350410 60529821 (86.04%) 606556 (0.86%) 59923265 (85.18%) 30176973 (42.9%) 29746292 (42.28%) 29930036 (42.54%) 29993229 (42.63%) 42357242 (60.21%) 17566023 (24.97%) 53795182 (76.47%) HS2 70238926 60232484 (85.75%) 633575 (0.9%) 59598909 (84.85%) 29987004 (42.69%) 29611905 (42.16%) 29783311 (42.4%) 29815598 (42.45%) 42528691 (60.55%) 17070218 (24.3%) 54428240 (77.49%) HT1 76161678 63555439 (83.45%) 714678 (0.94%) 62840761 (82.51%) 31592931 (41.48%) 31247830 (41.03%) 31409912 (41.24%) 31430849 (41.27%) 45227757 (59.38%) 17613004 (23.13%) 56181352 (73.77%) HT2 50666084 43461327 (85.78%) 450156 (0.89%) 43011171 (84.89%) 21654629 (42.74%) 21356542 (42.15%) 21476601 (42.39%) 21534570 (42.5%) 31347392 (61.87%) 11663779 (23.02%) 38524314 (76.04%) HW1 46573662 40246848 (86.42%) 389470 (0.84%) 39857378 (85.58%) 20028779 (43%) 19828599 (42.57%) 19923501 (42.78%) 19933877 (42.8%) 28062847 (60.25%) 11794531 (25.32%) 36101400 (77.51%) HW2 40543118 34971284 (86.26%) 335509 (0.83%) 34635775 (85.37%) 17411209 (43.02%) 17224566 (42.35%) 17289330 (42.61%) 17346445 (42.76%) 24725216 (61.1%) 9910559 (24.26%) 31246362 (77.25%) 比对结果统计详细内容如下:

(1) Total reads:测序序列经过测序数据过滤后的数量统计(Clean data)。 (2) Total mapped:能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于 70%。

(3) Multiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;这部分数据的百分比一般会小于10%。

(4) Uniquely mapped:在参考序列上有唯一比对位置的测序序列的数量统

计。

(5) Reads map to '+',Reads map to '-':测序序列比对到基因组上正链和负链的统计。

(6) Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。 3.2 Reads在参考基因组不同区域的分布情况

对Total mapped reads的比对到基因组上的各个部分的情况进行统计,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间隔区域)。 正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能是因为基因组注释不完全以及背景噪音。

图3.2 Reads在参考基因组不同区域的分布情况

3.3 Reads在染色体上的密度分布情况

对Total mapped reads的比对到基因组上的各个染色体(分正负链)的密度进行统计,如下图所示,具体作图的方法为用滑动窗口(window size)为1K,计算窗口内部比对到碱基位置上的reads的中位数,并转化成 log2 。正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多(Marquez et al.)。从定位到染色体上的reads数与染色体长度的关系图中,可以更加直观看

出染色体长度和reads总数的关系。