高性能计算是计算机科学的一个分支,致力于实现超级计算。在高性能集群上运行的应用程序可采用串行或并行的方式运行,通过多台机器进行处理,能显著提高运行效率。高校作为学术发展的前沿阵地,对高性能计算有非常大的需求,同时高性能计算的应用能够对学科建设和发展起到非常好的推动作用,故在高校进行超算平台的建设具有非常重要的意义。
高性能运算的需求分析
目前,大部分高校都引进了一批高素质、高水平的科研人员,这些科研人员具有较高的科研水平和科技创新能力,对高性能运算有着迫切的需求。如果没有一个良好的工作环境,科研人员的学术水平将无法正常发挥。为了更好地建设超算中心,重庆医科大学对科研人员的科研方向和科研需求进行了大量前期调研,以充分了解大家的需求。
主要调研内容包括计算需求、存储需求、软件需求等。通过调研发现,医学院校的科研需求主要集中在基础、生物工程、检验医学、肝脑疾病研究所等科研院系和机构。这些院系和机构对运算资源、数据的存储、GPU运算的需求都比较强烈。
同时,根据调研结果,笔者对各个院系的软件需求和硬件需求进行了分类。医学类的应用主要集中在几个方面,即应用统计、大数据挖掘、基因测序数据分析、分子动力学模拟、药物研发等领域,而常用的软件有Gaussian、Gromacs、Vasp、Python等。
高性能运算平台建设模式
重庆医科大学超算平台建设经历了两个阶段,第一是院系平台阶段,第二是校级平台阶段。在院系平台建设的基础上,笔者对校级超算平台的建设模式也进行了充分论证。目前,超算系统的建设模式分别是租赁、专享、托管、自建。针对各自特点,笔者进行了深入分析,模式对比见表1。
表1超算中心建设模式对比
通过表1分析可知,在用户数和计算量不大的情况下,租赁的优势明显;在同等条件下,专享和托管的费用都高于自建。同时,由于当前高校科研队伍中,本科生和研究生占比较重,对这部分人员而言,有校级超算平台支撑,对他们科研能力的提高将发挥重要作用。因此,目前高校校级超算平台大多采用自建的模式。
高性能运算平台的搭建
建设校级超算平台,可以提供统一的机房建设、电力系统供应和人员保障,将有利于资源的整合,提高资源的使用效率,并易于管理,从而最大程度保障超算平台的运行。
重庆医科大学超算平台搭建经历了两个阶段,第一个阶段是院系出于自身需求搭建的院系级科研平台。该平台特点是规模较小,可以满足院系人员的使用,且使用比较灵活;缺点是资源闲置比较严重,当院系科研项目结束后,超算资源得不到有效利用,会处于闲置状态,而分发给其他学院使用又会因资源有限导致严重的排队现象。
同时,排队现象的出现也反映了高校对超算旺盛的需求,出于这样的考虑,重庆医科大学开启了第二个阶段,即校级平台的建设。本次校级平台的建设分成两个部分,一是本地资源建设,二是线上资源建设。本地资源主要是为了满足科研人员对大带宽、大存储的数据要求,而线上资源则主要作为线下资源的补充。
重庆医科大学院系平台的搭建始于2019年。院系平台的硬件采用服务器集群组件,由20个刀片节点组成,管理节点1台,配置存储服务器2台,存储容量400T,采用InfiniBand(转换线缆技术)网络进行高速交换。集群管理软件采用BCM软件进行管理,调度软件使用Slurm进行作业调度。
校级超算中心本地资源投资800万元,其中150万用于超算机房的建设,650万用于超算软硬件平台资源的部署,主要包括刀片服务器52台,胖节点2台,管理节点2台,GPU服务器2台,每台配置A100GPU卡4张,配置6台分布式存储服务器,存储裸容量达到1PB全系采用InfiniBand高速交换系统,保障系统传输效率。集群管理软件采用GridView软件进行管理,调度软件采用Slurm进行作业调度。在校级平台建成后,我们对一期资源进行了整合,使整体超算规模达到1200万。超算中心整体架构如图1所示。
图1超算中心整体架构
在线资源应用方面,校级超算平台配备有360万核时的CPU资源,同时配备有60万卡时的GPU资源,用于支持本地运算。学校超算中心资源统计见表2。
表2重庆医科大学超算中心资源统计
平台运行分析
高性能计算是一个多学科领域,结合了硬件技术和软件系统,涉及到系统架构、操作系统、软件工程、编程工具以及最终用户的软件和算法等多个方面。所以,要想熟练使用超算系统,相关工作人员不仅需要具备较强的计算机知识和技能,还必须与实际应用学科相结合,才能真正发挥超算平台的作用。从重庆医科大学目前的超算平台建设来看,不同的建设模式各有优缺点。
学校一期建设,由于节点数量和用户比较少,适用于小型团队,而小型团队的工作与课题项目紧密相关,一旦项目结束,计算资源便处于闲置状态。为此,我们将该平台面向全校用户开放,但是开放后面临一个问题,即用户量起来后,提交的作业任务明显增多,排队现象变得比较严重。同时,由于国内缺少有力的技术支撑,而且掌握作业调度软件及专业软件的人员相对较少,致使平台使用中的很多问题无法解决。
学校二期建设采用了不同的模式,前期收集了不同院系的超算需求,并根据不同的计算需求制定整体方案。在整个项目建设方案中,以计算节点为主,GPU节点为辅,配备两台胖节点满足对大内存节点有需求的部门。整个平台的建设所采用的作业调度软件与一期一致,都是Slurm,以方便之前的用户能够无缝接入新的平台。另外,超算平台的使用不仅要求普通用户要有Linux操作系统方面的使用经验,还需要其熟悉Slurm调度系统。
学校二期建设配备的在线资源尽管只是补充,但是在线资源的软件非常丰富,而且提供完善的售后支持服务。此外,在线资源的缺陷也非常明显,即对于数据量大或者传输效率要求较高的用户并不适用。而且本次在线资源由项目本身配备的,若单独配置,则可能会产生较大花费。
二期建设在开始时进行了系统规划,在运行过程中也有专业管理人员加入,通过线上线下相结合的方式,使整个平台的运行得以保障。目前,整个平台运行3个月,运行人数和运行作业量呈线性增长,完成的作业已达13000个,整个平台利用率达到70%,运行情况良好。
通过实践证明,超算中心的建设并非一帆风顺,对于机房环境、软硬件平台、维护人员要求都比较高。高校在进行超算中心建设时,必须充分考虑自身需要,以避免资源闲置。一个良好且运行稳定的超算平台对提高学科竞争力、提升科研水平及培养并行计算人才至关重要。
作者:杨庆涛、何小波(重庆医科大学信息中心)
转载自中国教育网络。