高校数据治理是一个双向奔赴的过程。治理者需要创造适宜且持续的应用场景,并通过机制与宣传营造氛围,使大量用户能在长期使用中积累共识,最终潜移默化改变个人习惯。
学科经费跟踪管理登录页面
自2018年起,笔者参与西北大学学科信息化建设,从零开始摸索搭建学科系统。2020年4月,西北大学学科建设大数据管理平台1.0上线。运维2年,终因底层架构考虑不周,系统运行实际效果差强人意而停止更新,期间可贵的是积累了校内近10万次的点击登录以及大量的用户反馈,使团队对于此项工作有了更深入的认识,决定推倒重建。
经过小半年的建设,2023年初,西北大学学科建设大数据管理平台2.0涅槃重生。新系统脱胎于实践经验与用户反馈,升级完善了系统架构,实现了学科数据的全口径统计,添加了校内学科建设单位纵向、横向数据对比功能,同步了学科建设经费与校财务系统的后台数据管理,优化了部门间数据更新与共享的新机制,使平台真正做到可用、好用、管用,打通学校办学数据信息细化到各个学科建设单位的“最后一公里”,有效纾解数据孤岛,进一步提升学科建设管理服务精细化、专业化、科学化水平。
举例来说,新系统从底层架构上解决了旧系统“教师数据范围归类不全”的痛点。学科数据库一般设定数据的元单位是“教师”,所有成果都跟教师(教师编号)绑定,但关于教师范围的界定,是一大难题,甚至成了“隐患”。
旧系统以学校人力部门提供的“专任教师”名单为准。但是实际上,还有相当一部分产生学科成果的人员是这个范围之外的,比如退休、离职、外聘人员,还有师资博士后、专业技术岗、管理干部等。因为一开始没把“非专任教师”统计进系统,所以相应数据导入后就会落空,只能从后台一条条手工输入,无疑极大地增加了工作量。
基于此,在系统重新构建时,新系统便将教师范围做了细分,除“在编在岗专任教师”外,还专设“其他教学科研人员”的分类,统计涵盖了近10年所有产生学科数据的人员,为其建立表格并设唯一系统编号。
事实上,新系统还围绕数据作了通盘考虑,把“人员分类”“教师-院系归属”这样的基本信息表格定义为结构表格,类似功能的一共有7张,构成了整个系统的“骨架”;各类一级指标42项,这42张表格称为成果表格,成为填充系统的“血肉”,系统运维时,两类表格均需定期更新,以保证系统的成长性和数据流的准确性。
系统更新后确实好用了不少,但新问题也在源源不断产生,问题主要集中在工作互动模块,总有些之前没考虑到的问题冒出来。
以学科经费监测管理模块举例,该模块与学校财务系统打通了后台API接口,各院系学科经费使用报销情况能够实时传送至学科系统。但经过仔细统计,每年相关数据总是有10%左右的误差,团队非常疑惑,苦于找不到问题症结。
最后,联合财务处、两家系统的开发公司,四方坐到一起研讨,才终于把问题找出来了。原来财务系统不是一个单独系统,而是一个主系统带了两个子系统,新系统的API接口只连接了财务主系统,两个财务子系统的数据一直是落空的。像这样的问题,只有随着使用的逐渐深入才会发现。事实上,在新系统上线以来,我们更新维护的脚步一直没有停下,目前已经小修小补了七八个地方。
系统的更新修补是一件好事。总是有人问:这个平台到底什么时候能建好?我们总是说:还差得远。事实也是如此,对于学科大数据管理平台来说,现阶段“建好”还远谈不上,能够“一直在用”并能“不断发现并解决问题”,已经是一种莫大的进步了。
下一阶段,团队将持续对系统进行更新升级,其中包括很多业已成型、较为成熟的技术构思,比如教师学术画像页、内部搜索页、更进一步的手机端适配、微信小程序、学科绩效分析模块等。但在资源精力有限的情况下,还需做好减法,优先更新现阶段最需要的功能,并争取做到日拱一卒。
很多现在的“习以为常”
大多来自最初的“多此一举”
随着工作的深入,团队愈加感到“做个系统”本身反而是整个学科信息化工作中最简单的那一部分。说白了,数据信息平台只是一个“空壳子”,真想让它正常运转,还得有不同源头数据的持续输入和应用场景的持续输出,各个环节环环相扣。事实上,这不是一个“平台”,而是一整套数据治理解决方案。
从宏观来看,高校数据治理是个很大的概念,因为数据的形式多样,有表、图、日志、视频、音频等,所以我们称其为大数据。而“学科大数据治理”一般只对应狭义的结构化数据,即日常教学、科研、人事等业务中具有逻辑对应关系、能列到Excel表里的数据,它们不用依赖图像识别、数字孪生、虚拟映射之类科技含量更高的手段,现有的数据库方法体系已能较好满足,所以笔者认为其治理的关键点不囿于技术,而更依赖于场景、氛围和习惯。
说诗意一些,高校数据治理是一个双向奔赴的过程。治理者需要创造适宜且持续的应用场景,并通过机制与宣传营造氛围,使大量用户能在长期使用中积累共识,最终潜移默化改变个人习惯。
从微观来讲,推动高校数据治理的源生动力,就是每个参与者数据治理意识的觉醒和数据素养的提升。其标志,就是我们开始重视自身的“数据唯一性”。
举个例子,如今论文检索领域最大难题,就是论文认领与清洗,原因就是作者有重名现象,还有英文名字拼写不一的现象,导致目前最先进的机洗程序也只能达到90%左右的正确率,论文成果数据在严谨使用时还需要老师手工逐一核对认领。这个难题短期改善靠的是提升技术,比如更强大的识别筛选算法、更智慧的AI训练等,但从长期来说,其实存在更高维度的解决办法。
ORCID注册申请页面示意
做研究的人都知道ORCID(Open Researcher and Contributor ID),即开放研究者与贡献者身份识别码。它的作用就是在论文投稿、基金申请等科研活动中对科研人员的识别。我们可以将它理解为,一个人唯一的学术身份证。
注册申请orcid非常简单方便,本人实测3分钟即可搞定。登录网站,根据提示填写个人信息后,就能得到一个16位数号码,之后Editorial Manager (Elsevier、Springer、Wiley、Plos)投稿系统,可以直接使用orcid进行登录,这样,每篇论文就有了全球唯一识别码(而非作者姓名)作为清洗依据,机洗难题迎刃而解。
所以,技术永远是最简单的部分,难的是人的态度与行动,难的是每一位科研人员包括教师与学生都主动拥有并在每一次发表论文时都自觉使用这项技术。从目前来看,写不写orcid丝毫不影响学术活动,这也导致人们对于自身“非唯一”这件事还并不在意。
其实,可以做一些微小的改变,比如在研究生入校登记、新教师入职表中加入学术身份识别码的填写栏(据了解国家基金委也在建一套学术身份识别体系,不知道是否与orcid冲突,也可能国家有后续统筹部署),鼓励大家从一开始就申领并使用,从而培养起使用习惯。毕竟,很多后来的“习以为常”,都是由最开始的“多此一举”演变来的。
所以,现在谈“数据唯一性”这些的意义更多是一种对于数字化的“祛魅”,我们期待的效果绝不会像《黑客帝国》里尼奥吃下红色药丸那样立竿见影,而是更类似十几年间手机支付在国内的兴起和普及,步履稳健,但不可逆转。
从长期来说,笔者对高校大数据治理的实现充满信心,因为它不光是一种基于全量样本的更严谨更精细的工作模式与方法论,更重要的是,它隐隐契合了自古以来士人大夫心中对于“天下一统”的理解,所谓“六合同风,九州共贯”,自秦始皇统一度量衡开始,这种完美主义的终极追求就不曾磨灭。当技术、机制不断完善,当越来越多的人开始有数据治理的意识、有数据思维的素养,我相信,星星之火,终能燎原。
我们像在做一件“最落伍”的事
也似在做一件“最超前”的事
这个世界正在发生剧烈的变化。算力成为一种越来越重要的战略资源,苹果大举进军生成式AI,ChatGPT更新4.0,Sora试图构建大统一模型,AI世界具有创世纪意义的基本粒子正在被创造,在算力持续加持下,生成式AI最终将进化为AGI(通用人工智能),会拥有“创造”的力量,可以为原本无序的系统自动生成秩序,通过注入框架性的底层逻辑,将信息碎片拼合、将数据孤岛连接,实现一种最本质的进步:熵减。
很多人说,这些技术听上去都太科幻了,与我们的日常生活有什么关系呢?它们甚至很大可能是资本吹出的泡泡,或者另一个“星球大战”计划。
当然,不排除这里面有吹嘘和夸大宣传的成分,但也必须正视一个事实,那就是这波技术迭代发展的速度太快了。要知道蒸汽机从帕平、纽卡门时代到瓦特改良推广,经过近百年漫长历程;电脑从ENIAC到个人PC普及,也经历了近50年的升级之路。而近几年AI浪潮发展的速度已经远超这些过去时代颠覆性技术的发展速度,也超过了每一个人认知的速度。如果因不了解就选择轻视,或因某种立场就单纯的说这些是别有用心的宣传,那和当年乾隆皇帝嘲笑马戛尔尼的奇技淫巧,又有什么区别?面对未知,始终需要的是旺盛的好奇、清醒审慎的头脑和脚踏实地的行动。
回到国内,2023年,中共中央国务院印发《数字中国建设整体布局规划》。2024年1月,2024世界数字教育大会在上海如约而至,国家建设教育强国、数字中国的脚步从未放缓,解放发展新质生产力的大幕正在徐徐拉开。数字AI技术对于全领域的赋能将持续增强,基于智慧物联、智慧信息服务的智慧校园建设稳步推进,最终将全面重塑与再造我们现有的工作。届时,AI赋能的教育必定涌现出全新的业态,变得高度定制化、智慧化、人性化,我们的教育工作也会变得越来越有趣,且更具挑战性。
大潮已至,学科信息化建设这原本看似不起眼的小事,也变得富有意义起来,即便当下团队还在用最原始的方式进行数据治理与信息化实践,但我们始终对于未来充满乐观,因为我们知道此时的一举一动,都是涓涓细流,最终将汇入这场新技术革命的宏大叙事中,成为推动历史发展的磅礴力量。
时空的参照系已然模糊,我们像在做一件最落伍的事,也似在做一件最超前的事。重要的是,我们坚信此时所做之事,正当其时。
来源:《中国教育网络》2024年2-3月合刊