有参考基因组的转录组生物信息分析模板

(1) 将测序序列整段比对到外显子上。 (2) 将测序序列分段比对到两个外显子上。

我们统计了实验所产生的测序序列的定位个数(Total Mapped Reads)及其占clean reads的百分比,其中包括多个定位的测序序列个数(Multiple Mapped Reads)及其占总体(clean reads)的百分比,以及单个定位的测序序列个数(Uniquely Mapped Reads)及其占总体(clean reads)的百分比。 3.1 Reads与参考基因组比对情况统计

表3.1 Reads与参考基因组比对情况一览表

Sample name Total reads Total mapped Multiple mapped Uniquely mapped Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs HS1 70350410 60529821 (86.04%) 606556 (0.86%) 59923265 (85.18%) 30176973 (42.9%) 29746292 (42.28%) 29930036 (42.54%) 29993229 (42.63%) 42357242 (60.21%) 17566023 (24.97%) 53795182 (76.47%) HS2 70238926 60232484 (85.75%) 633575 (0.9%) 59598909 (84.85%) 29987004 (42.69%) 29611905 (42.16%) 29783311 (42.4%) 29815598 (42.45%) 42528691 (60.55%) 17070218 (24.3%) 54428240 (77.49%) HT1 76161678 63555439 (83.45%) 714678 (0.94%) 62840761 (82.51%) 31592931 (41.48%) 31247830 (41.03%) 31409912 (41.24%) 31430849 (41.27%) 45227757 (59.38%) 17613004 (23.13%) 56181352 (73.77%) HT2 50666084 43461327 (85.78%) 450156 (0.89%) 43011171 (84.89%) 21654629 (42.74%) 21356542 (42.15%) 21476601 (42.39%) 21534570 (42.5%) 31347392 (61.87%) 11663779 (23.02%) 38524314 (76.04%) HW1 46573662 40246848 (86.42%) 389470 (0.84%) 39857378 (85.58%) 20028779 (43%) 19828599 (42.57%) 19923501 (42.78%) 19933877 (42.8%) 28062847 (60.25%) 11794531 (25.32%) 36101400 (77.51%) HW2 40543118 34971284 (86.26%) 335509 (0.83%) 34635775 (85.37%) 17411209 (43.02%) 17224566 (42.35%) 17289330 (42.61%) 17346445 (42.76%) 24725216 (61.1%) 9910559 (24.26%) 31246362 (77.25%) 比对结果统计详细内容如下:

(1) Total reads:测序序列经过测序数据过滤后的数量统计(Clean data)。 (2) Total mapped:能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于 70%。

(3) Multiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;这部分数据的百分比一般会小于10%。

(4) Uniquely mapped:在参考序列上有唯一比对位置的测序序列的数量统

计。

(5) Reads map to '+',Reads map to '-':测序序列比对到基因组上正链和负链的统计。

(6) Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。 3.2 Reads在参考基因组不同区域的分布情况

对Total mapped reads的比对到基因组上的各个部分的情况进行统计,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间隔区域)。 正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能是因为基因组注释不完全以及背景噪音。

图3.2 Reads在参考基因组不同区域的分布情况

3.3 Reads在染色体上的密度分布情况

对Total mapped reads的比对到基因组上的各个染色体(分正负链)的密度进行统计,如下图所示,具体作图的方法为用滑动窗口(window size)为1K,计算窗口内部比对到碱基位置上的reads的中位数,并转化成 log2 。正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多(Marquez et al.)。从定位到染色体上的reads数与染色体长度的关系图中,可以更加直观看

出染色体长度和reads总数的关系。

联系客服:779662525#qq.com(#替换为@)