本站首页 >> 正文

南京农大AI基础设施建设与实践

2025-10-22 17:31  

随着生成式AI与大模型技术快速发展,高等教育正在经历教学、科研与管理模式的智能化转型,AI应用驱动的个性化教学、高校科研协作及智能管理对学校数字化基础设施提出更高要求。为此,《高校信息化应用》推出“AI+教育:数字基建实践探索与创新生态”专题,通过采访教育信息化从业者,探索适配AI应用浪潮下的高校数字化新基建升级路径,为教育智能化提供可持续支撑,推动技术赋能与学术价值的深度融合。



 




受访嘉宾:查贵庭

南京农业大学信息化建设中心主任


人工智能当前正在加速推进高等教育领域的深刻变革,加强校园AI基础设施建设,已成为高校实现数智化转型以及高质量发展的重要抓手。南京农业大学为应对AI应用及算力对带宽需求将呈指数级增长、AI应用及算力急需解决网络延迟与抖动等问题,构建了支撑AI应用高效运行的算力专网,并在部署高性能算力平台和AI教育大模型的同时,形成了“本地算力+云端资源”联动的智能模型服务矩阵。南京农业大学信息化建设中心主任查贵庭表示,学校踏着智能时代的浪潮前进,在AI基础设施建设与应用实践中,取得了一些成果和创新,积累了一些有益经验。


发力算力平台与教育大模型部署优化

问:学校AI算力平台和大模型建设进展如何?采用了哪些关键技术与策略?

查贵庭:在算力平台和大模型建设方面,学校充分利用新校区建设契机,已建有行业领先的算力机房和校级高性能计算公共平台。该平台采用异构计算架构,配置有CPU及GPU计算节点和超过30PB的分布式存储系统,CPU+GPU协同计算峰值超过3000TFlops,构建了覆盖通用计算、加速计算、深度学习与海量存储的学校公共多元算力基座。


大模型服务采用了算力资源融合,由docker承担模型实例,nginx服务负责负载均衡及认证,keepalived负责nginx主备切换,对外服务采用浮动IP。平台为“人工智能+农业”、“人工智能+人文”、“人工智能+教育”等奠定了良好的基础。   

问:在AI算力集群构建和模型训练中,学校如何优化AI算力资源分配与跨节点协同?有哪些经验或挑战?

查贵庭:由于学校算力资源的购置时间不同,技术架构、节点间带宽、产品型号等都存在差异,从而导致新旧算力资源的整合存在一定的技术障碍,对发挥资源“1+1>2”的融合成效提出了极大的挑战;AI算力资源配置与跨节点协同方面,仍需不断持续优化和适配。我们通过作业调度系统、容器化、多类型网络互连技术克服了上述问题,比如:针对集群节点间带宽而无法满足GPU卡间全速率通信的问题,目前采用单卡单模型部署方式来解决。

问:学校如何保障AI模型与数据的安全?如何兼顾防护效果与运行效率?

查贵庭:为保障学校AI模型与数据安全,目前学校采用了受信访问和内外网隔离的网络安全管控模式,其中,校园网与互联网通讯通过aTrust访问、单点授权,算力与外网则采用防火墙隔离(地址转换)、EDR等安全技术,而管理及运维则通过堡垒机进行访问控制。由于算力对系统资源的性能要求较高,每个节点均不适合安装安全防护软件。为平衡网络安全防护与系统性能发挥,目前仅在登录节点、AI MGT节点、管理平台节点上部署了EDR   


在数据安全防护方面,还要不断完善数据分类分级工作,建立分类分级标准,逐步完成训练数据的标注工作,构建基于用户角色的访问权限体系,坚持最小化访问原则。在模型安全防护层面,将网络安全技术与需求贯穿到模型的研发、部署、日常监控与更新等环节。在基础设施安全防护层面,则需进一步聚焦数据传输、存储环节的加密措施,以及入侵检测与技术防护能力的构建。

形成“本地算力+云端资源”联动智能模型服务矩阵

问:学校AI应用平台取得哪些成效?在教学、科研、管理中有哪些典型案例?如何进一步释放AI应用平台的潜力?

查贵庭:学校目前已实现deepseek-v3、deepseek-R1、Qwen3、Qwen-QWQ等国内主流开源模型的本地化部署,并基于混合云架构与头部云服务商深度协同,集成接入豆包全系列(涵盖文本生成、图像识别等基础模型)、腾讯云Hunyuan多模态大模型等,基本形成了“本地算力+云端资源”联动的智能模型服务矩阵,为AI在智能助手、教学辅助、科研协同、管理服务等方面应用提供了“蓄势待发”的发展态势。


值得一提的是,学校王东波教授团队自主研发的国内首个古籍领域开源“荀子古籍大模型”,已成功取得2025年国家网信办第七批大语言模型备案和江苏省生成式人工智能服务备案。“荀子古籍大模型”是国内首个专门用于古籍处理与研究的古籍大语言模型,包含《四库全书》在内的古籍文献超20亿字大型语料库,具备自然语言理解、自动翻译、自动标引,以及古文的阅读理解、标点添加,以及将古汉语翻译为现场汉语等功能。


学校近期还将重点围绕四个方面,进一步释放AI应用平台带动校园AI基础设施提质升级和为师生提供便捷服务的潜力。一是加快AI应用从单智能体场景向多智能体跨业务域、校际协同场景的迈进。二是加快推动算力资源的跨域调度、校际共享,进一步提升算力支撑效能、以及AI应用对多场景支持与覆盖的能力。三是加快AI应用开发平台赋能AI应用人才培养能力,构建“培养—实践—输出”AI人才成长闭环,不断为AI应用提供高质量人力资源支持。四是积极参与和推进跨校AI应用创新共同体建设,加快构建高校大模型仓库联盟、社区化驱动机制等。

构建支撑AI应用高效运行算力专网



问:AI应用的普及对学校跨校区网络传输带来了哪些挑战?如何平衡网络负载与运维成本,能否分享相关案例?

查贵庭:高校AI应用的普及对网络传输带宽、网络传输稳定性的要求也越来越高,特别是AI模型训练、数据传输等。


一是AI应用及算力对带宽需求将呈指数级增长。AI模型的训练和推理过程通常需要处理海量数据,随着校内师生共享大型AI训练数据集、协同开展AI应用的增加,从数据采集、传输到处理和存储,每一步都需要大量的网络带宽支持,加上师生联网终端数的迅猛增加,AI应用及算力对网络带宽造成的压力将呈指数级增长。


二是AI应用及算力急需解决网络延迟与抖动问题。由于校园网普遍存在建设时间不一、发展不均衡的问题,在跨校区网络环境中,数据需要经过多个网络节点和链路才能到达目的地,这显著增加了网络延迟和抖动的可能。而目前很多AI应用,都需要数据实时响应,对网络延迟非常敏感,网络的延迟和抖动将会显著影响其AI应用性能和用户体验,因此AI应用普及对网络延迟和抖动提出了更严酷的要求。


为了满足当前AI应用对网络和建设运行成本的需求,当前学校主要采用探索建设校内部分算力专线模式,已构建了校内AI工作坊、相关实验室与算力平台间的专用高带宽无损耗光纤线路,并在此基础上,规划和逐步建设覆盖全校主要AI应用的算力专用网络。随着算力及AI应用、超级智能体的快速发展,高校需要统筹网络布局与优化,确保网络能够支持AI应用的高效运行。



下一条:高校数字化基础设施建设实践

Copyright 2005-2025 天水师范大学-信息化建设与服务中心

地址:甘肃省天水市秦州区藉河南路

甘公网安备:62050202000257号 陇ICP备15003457号