本站首页 >> 正文

高校数字化基础设施建设实践

2025-10-15 19:38  

undefined

随着生成式AI与大模型技术快速发展,高等教育正在经历教学、科研与管理模式的智能化转型,AI应用驱动的个性化教学、高校科研协作及智能管理对学校数字化基础设施提出更高要求。为此,《高校信息化应用》推出“AI+教育:数字基建实践探索与创新生态”专题,通过采访教育信息化从业者,探索适配AI应用浪潮下的高校数字化新基建升级路径,为教育智能化提供可持续支撑,推动技术赋能与学术价值的深度融合。






 




受访嘉宾:陆以勤

华南理工大学副首席信息官兼网络安全和信息化领导小组办公室主任




“AI应用是有门槛的,需要一定的信息化基础设施支撑,而基础设施的建设没有展示度,很容易受到忽略。”华南理工大学副首席信息官兼网络安全和信息化领导小组办公室主任陆以勤表示,在教育智能新时代,华南理工大学积极探索“AI+教育”应用场景,持续推进AI基础设施建设升级,部署服务教学、科研、管理的AI应用平台,目前已经实现数据中心即服务、算力即服务、平台即服务、模型即服务、智能体/知识库即服务,构建了一个开放共赢的教育数智化生态。


打造AI算力集群 部署教育大模型




学校AI算力平台和大模型建设进展如何?采用了哪些关键技术与策略?

陆以勤:目前人工智能技术以深度学习为主要特征,从技术层面上,自底而上包括数据中心、算力设施、算力平台、模型、训练数据集、知识库、智能体等,因此,要建设AI应用和赋能的生态,必须做好和这些技术相关的基础性工作。就目前来看,在各个技术层面的基础设施是相互解耦的,因此可组合各种技术形成多种建设模式和服务模式。下面我简单介绍一下华南理工大学的一些做法。


作为面向大湾区产业升级的工科院校,华南理工大学很早就意识到人工智能对整个社会的推动作用,早在2017年就在新校区规划建设建筑面积12800平方米的独立的数据中心,设计容纳680个机柜,采用水冷式制冷,安装了12个2000/2500KVA的变压器,总容量达27000KVA,可以有效供电10000KW。2022年10月,在GPT-3.5发布之前,学校已着手建设全新科学计算公共服务平台“开物”“成务”两大算力集群,总物理核心36928个,总GPU卡约350张,系统总存储34PB,平台总计算能力7.3PFlops(双精度),其中CPU算力3.33P,GPU算力3.97P或者折合为AI算力94.2PFlops(半精度)。系统采用通用和国产化相结合、HPC和AI相融合的建设模式,兼顾通用和国产化过度做准备,同时提供高性能计算和智能计算服务。计算网络采用200Gb/s全线速无阻塞NDR IB网络,制冷技术采用温水液冷技术,是全国首个存算一栈式液冷科学计算平台,PUE值约为1.2。学校算力设施和调度服务平台建成后,可通过各种方式,包括IaaS、PaaS和SaaS等,提供各种服务,如高性能计算HPC、模型训练、模型微调精调等。与此同时,学校科研团队也开始建设面向各类应用的大模型,例如华南理工广东省数字孪生人重点实验室建设的扁鹊(BianQue)和灵心(SoulChat)主动健康大模型。扁鹊是一个经过千万规模中文健康对话数据指令微调的生活空间健康大模型,具备多轮问询与健康建议能力;而灵心则是一个经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型,具备共情倾听能力,开源模型/语料下载达16500次,在AI心理垂域排名第一。


除了各个科研团队开发的大模型外,学校依托算力平台,提供便捷的模型训练、模型微调/精调的便捷服务。为了给学校各类科研团队提供通用大模型的接入服务,即MaaS(模型即服务),学校开始在本地部署大模型。2025年1月20日DeepSeek-R1模型发布之后,7天内用户突破1亿,成为史上最快破亿的应用,在国内外形成巨大的反响。出于数据安全和对本地特色应用的支撑,很多高校希望能在本地接入DeepSeek。2025年2月21日,华南理工完成DeepSeek R1 671B满血版和32B本地部署,并且通过广东省教科网,给广东省教育系统提供DeepSeek后端共享服务。广东省院校只需在其本校安装DeepSeek前端即可以通过广东省教科网连接到华南理工DeepSeek后端,不需要本地的算力就可以为该校师生提供DeepSeek服务,产生的数据控制在教科网内部高校前端和华工后端之间传输,不扩散到互联网中。目前已有70个单位共享了华工DeepSeek的后端。有些单位部署了32B蒸馏版,需要使用满血版时连到华工后端,这样本校学生也可以享受满血版的服务。


除了DeepSeekR1 671B满血版和32B外,华南理工还在本地部署了阿里巴巴通义千问Qwen3,EBD(Embedding,做知识库向量化的模型)等。由于学校提供了大模型的本地接入能力,专业技术人员可以面向各类应用,通过开源的代码或者工具建设各类智能体和知识库,所有数据在校内传输。为了进一步降低普通老师和同学应用AI的门槛,使他们通过零代码的方式方便生成自己的智能体和知识库,学校建设了校级AI能力中心,提供智能体/知识库即服务平台,为全校AI应用提供便捷的服务,让全校师生像使用手机那样方便地应用AI。




在AI算力集群构建和模型训练中,学校如何优化AI算力资源分配与跨节点协同?有哪些经验或挑战?

陆以勤:我校目前的GPU服务器有8卡A800和4卡A800类型,均为NVLink类型,以及部分信创GPU节点,总分为两个集群多个队列,以面向不同模型训练需求提供服务,通过调度器来实现资源的有效分配。


从模型训练来看,面临更多的是卡卡之间的带宽,如同节点采用NVlink可以解决大带宽问题,但是跨节点会是瓶颈,在配置训练集群的时候,跨节点的计算网络要提高到GPU卡带宽级别,采用无损全联接网络或者采用NVlink交换机等措施,才能更好发挥多节点协同的作用。




学校如何保障AI模型与数据的安全?如何兼顾防护效果与运行效率?

陆以勤:对于训练数据,平台具备账户隔离的功能,以确保语料数据的安全。对于运行数据,通过采用API网关方式来提供统一的模型推理通道,推理大模型集群运行在后端的私有网络,实现网络的隔离,接入应用通过反向代理和独立的APIKeys构建独立通道,以确保数据接入的安全性。


特别值得一提的是,华南理工大模型接入的API网关源于本校研究生宋全鹏2023年初开发的One API。这里的One API是GitHub上一个AI接口网关,不是2018年英特尔开发的异构计算工具包oneAPI。宋全鹏本科和研究生均就读于华南理工计算机科学与工程学院,2023年毕业后进入企业工作。后来One API在开源社区获得深度功能扩展与架构优化,新增了多项核心能力:包括全界面重构、更多的大模型API支持、动态模型限流、优化计费功能、优化渠道调度功能、优化数据看板功能模块等等,成为New API。2025年2月,华南理工信息网络工程研究中心工程师徐文楷在New API基础上进行了改进,实现了为不同模型及token配置并发量的功能,实现了高校按并发量计费的场景,并成为了该开源项目的贡献者。




建设以“场景为先”的AI应用平台




学校AI应用平台取得哪些成效?在教学、科研、管理中有哪些典型案例?

陆以勤:学校AI应用平台建设,目前已实现数据中心即服务、算力即服务、平台即服务、模型即服务、智能体/知识库即服务,全链条打造培养全体师生人工智能的思维和能力的良好生态。在实际运行中,提供了便捷的集约化的AI应用建设环境,为全校提供便捷的AI应用配置和部署环境,实现大模型服务普及化,提供教学、科研和管理有效的AI应用工具,降低师生开发AI应用的门槛,实现人人都可以拥有自己的智能体和知识库,而个性化知识库的建立,也可以降低模型的推理需求,节省大模型运行成本,另外,通过平台统一提供AI应用运行,有利于AI应用的统一管理和管控,提升AI应用落地的规范和安全性,加速学校AI应用的建设和普及。我在此列举几个案例。


在教学上,例如华南理工2025年初推出“百步梯学堂”,通过嵌入大模型能力,一键实现AI交互,包括AI课程问答、RAG知识库问答、智能出题、作业批阅、视频摘要等功能,实现在课前、课中、课后融入AI辅助教育教学应用,以AI赋能本科课程建设及课堂教学。


在科研上,除了上面提到的扁鹊和灵心主动健康大模型外,华南理工大学法学院学生双创团队L.Code研发出仲裁全流程智能辅助系统,2024年2月,利用这一系统联合广州仲裁委员会成功调解一起合同纠纷案成为我国首例由人工智能主导的纠纷解决成功案例,并于2024年10月获中国国际大学生创新大赛总决赛金奖,入选世界互联网跨境电商案例集。再如华南理工大学材料学院李宁教授团队承担的国家自然科学基金委重大项目,基于人工智能,建立光电材料高通量制备表征及数据库,其主持的广东省高等学校能源与信息高分子材料基础研究卓越中心前沿研究项目,设计并应用基于人工智能大模型的高通量实验流程,实现高通量自动化平台的控制程序从编程语言到自然语言,支持有机光电高分子材料的自主数据分析-检索-挖掘-反馈的智能化研发过程。


在管理上,我校在扁鹊和灵心主动健康大模型基础上,基于本校知识库,建立华工特色大思政模型,并开发数字辅导员,提供情感陪伴和心理咨询服务,利用AI技术缓解辅导员不足,同时用人机对话方式消除学生心理咨询的顾虑。在广州国际校区,基于物联网采集30多个专业智能系统的数据,汇集到数字平台,通过深度学习形成绿色节能策略,下发到绿色节能系统,提高节能效果。管理方面的诸多应用还包括在AI能力中心生成的各类智能问答、服务助手等。




构建高性能AI应用传输网络




AI应用的普及对学校跨校区网络传输带来了哪些挑战?如何平衡网络负载与运维成本,能否分享相关案例?

陆以勤:AI应用是有门槛的,需要一定的信息化基础设施支撑,而基础设施的建设没有展示度,很容易受到忽略。AI这波浪潮来得很快,我国校高校反应也很快,但行动时很多高校才发现由于缺乏机房、供电、算力、网络等基础设施,AI部署受到影响。


在这方面,华南理工一直保持清醒的认识,重视信息化基础的建设,除了上面讲到在数据中心、供电、算力、平台等超前部署外,华南理工在网络方面建设也非常扎实,并且一直呼吁算网融合的研究,这为AI的快速应用提供了良好的基础。


华南理工大学有三个校区,分别为五山校区、大学城校区、广州国际校区,都在广州市内。五山校区和大学城校区、广州国际校区和大学城校各有2条不同路由的物理裸纤相连,广州国校区和五山校区有1条物理裸纤相连,都做了波分复用,三校区连成环形结构,校区之间互联带宽100G。在校区内,全部有线接入通信光缆达362公里,楼栋出口带宽10G,无线AP 30000台,实现室内Wifi全覆盖,其中广州国际校区全域采用SDN架构,这为AI跨校区网络传输打下了良好的基础。考虑到部署在广州国际校区的云平台和算力平台使用频率越来越高,今年计划广州国际校区和五山校区之间新租用一条异路由物理裸纤,这样三校区可构成了物理裸纤双环路结构。


AI应用需要跨校区的网络传输,如果是普通前端应用,传统带宽就能满足系统的运行,但是对于有训练或者微调等大量数据传输的场景,则需要较大的带宽;另外,AI应用的网络传输还要考虑安全问题,无论和后端数据大模型推理数据的传输和前端的应用访问,均需要确保数据访问的安全,以上也是算力平台和大模型为什么要部署在本地的原因。


前面提到,华南理工的在网络基础设施方面做了很多努力,这为AI应用的网络传输打下良好的基础。针对AI的网络传输,华南理工的相关举措包括:通过提升平台接入节点和带宽,提升平台总的吞吐力;跨校之间采用专线线路,确保跨校的带宽传输;采用5G专网和VPN相结合的安全机制,确保接入的安全和便捷性;采用API网关统一提供安全的模型推理通道,将大模型推理集群保护到安全的后端,提升人工智能数据的传输安全性。



下一条:案例分享丨高校人脸识别应用的风险和应对措施

Copyright 2005-2025 天水师范大学-信息化建设与服务中心

地址:甘肃省天水市秦州区藉河南路

甘公网安备:62050202000257号 陇ICP备15003457号