中科曙光基因数据分析与存储平台方案 下载本文

基因数据分析与存储平台

建设方案

目录

1平台建设需求分析 ........................................................................................................................ 3

1.1平台组成............................................................................................................................. 3

1.2系统应用分析 ..................................................................................................................... 4 2系统方案设计 ................................................................................................................................ 7

2.1系统配置表 ......................................................................................................................... 7 2.2系统拓扑图 ....................................................................................................................... 10 2.3系统方案说明 ................................................................................................................... 11 3系统技术参数 .............................................................................................................................. 12

3.1总体指标........................................................................................................................... 12 3.2刀片机箱........................................................................................................................... 12 3.3计算刀片........................................................................................................................... 12 3.4四路节点........................................................................................................................... 12 3.5管理登录节点 ................................................................................................................... 12 3.6存储节点........................................................................................................................... 13 3.7集群网络........................................................................................................................... 13 3.8机柜配电........................................................................................................................... 13 3.9集群软件........................................................................................................................... 13 3.10系统集成实施与售后服务 ............................................................................................. 15

1 平台建设需求分析

1.1 平台组成

生物信息学研究平台可分为测序平台和分析平台两部分,测序平台以基因测序仪为核心,完成基因测序,获得原始数据;分析平台以高性能计算软硬件系统为核心,完成数据的分析处理,获得分析结果。

其中,基因数据存储与分析平台即生物信息高性能计算系统通常包括: ? 计算子系统(刀片节点、胖计算节点、管理登陆节点) ? 存储子系统(在线存储系统、备份存储系统) ? 网络子系统(高速计算存储网络、低速管理网络)

? 管理调度系统(操作系统、集群管理系统、作业调度系统、KVM) ? 基础软件环境(编译器、数学库、并行环境等)

? 应用软件环境(生物信息平台软件、应用软件与基因组数据资源) ? 集群基础设施(机柜、配电系统)

? 机房环境(机房、制冷、监控、消防、隔音、供电等)

1.2 系统应用分析

生命科学做为21世纪最重要的科学分支之一,高性能计算在生命科学的研究和发展中起来非常重要的作用。由于测序技术的飞速发展,人类发现的基因序列数目按照指数级增长,那么对于如此数量庞大的基因进行同源性搜寻,比对,分析,遗传发育分析等等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构的预测,动力学特性、热力学特性、在生命过程中如何发生作用,这些科学问题也要借助于高性能计算机。所以高性能计算机在生命科学研究中,应用非常广泛,扮演着及其重要的角色。

生物信息学研究平台应用包括测序仪离线处理、序列搜寻比对分析、质谱仪原始资料处理、分子对接(药物设计)、电子显微镜图象处理等等,其中最为主要的仍是测序仪离线处理和序列搜寻比对分析,也是基因数据存储与分析平台承担的主要任务。

基因数据存储与分析平台应用的主要特点为:

1.计算量大,序列比对等大部分任务在双路节点上可以获得较高的计算效率; 2.序列拼接等部分应用需要大内存的节点,部分应用需要单节点1TB以上的内存; 3.数据访问量巨大,对存储性能、容量要求高,数据增长速度非常快; 4.开源软件众多,安装复杂,需要相应的基因组数据资源; 5.部分应用的工作流程较为复杂,自动化较低。