这次教育部、国家语委还有中央网信办发了个通知,要求到2027年要把国家关键语料库初步建起来,把国家数字中文建设搞得有声有色,好让语言文字这堆数据的价值都释放出来。刘培俊司长在发布会上说,今年可是落实《教育强国建设规划纲要(2024-2035年)》的关键时候,咱们得展望十年、谋划五年、立足三年去干这件事。 杨洁记者采访到了教育部语言文字信息管理司的相关负责人,他提到随着科技革命和产业变革的推进,大语言模型和AI发展得飞快,语料库的建设规模跟应用范围也被拉满了。咱们决定搞个国家关键语料库共建共享计划,把关键领域的资源都聚集起来。到时候要形成政府带头、部门配合、大家都来参与的工作机制,还要把国家语言文字大数据中心建好。教育部、国家语委和工信部合作发布了《关于加强数字中文建设 推进语言文字信息化发展的意见》,定下了时间表。 那这个“国家关键语料库”到底是个啥?就是给自然语言处理、大语言模型和AI技术打基础的东西。就拿文化传承来说吧,咱们之前已经建了中华思想文化术语库、甲骨文数据库这些东西了。2024年上线的“AI小语”,就是拿中华思想文化术语库当训练材料做出来的高互动智能平台,挺有意义的。 现在已经有30多个大规模高质量语料库了,都在经济社会发展的关键领域里用着呢。想把这个库建好,就得找准语言文字跟信息技术的结合点。国家语委以前搞了不少标准,现在面向AI时代,还得研究语言资源怎么建设和管理。得推进语料库、数据标注这些规范的制定。 除了搞标准研究,教育部还鼓励高校和企业去搞行业标准。要跟工信部、国家民委、国家标准委这些部门好好合作一下。还得推动已有标准的修订和宣传。 在人才培养这块儿也得下功夫。高校得增设语言智能或者计算语言学这种交叉学科的方向。还得让企业建实训基地教技能培训,好让学生好找工作。 2027年要是初步建成了这个库,再加上2035年这两个时间点的规划协同起来,到时候技术就能真正赋能经济社会发展了。