教育部发力:新型国家语料库建设拉开大幕

本文围绕教育部在3月31日新闻发布会上透露的新型国家语料库建设相关内容展开,阐述了建设的背景、现有语料库的不足、建设的总体考虑、相关政策要求以及后续的建设规划等。

在3月31日教育部召开的新闻发布会上,传出了关于“新型国家语料库”建设的重要消息。教育部、国家语委已经积极支持布局了五个领域的自主安全可控大语言模型建设项目,同时,教育部也已正式启动布局新型国家语料库的建设工作,其中涵盖了“中华文脉新型语料库”“中华大阅读体系语料库”等重要项目。

当前,以深度求索(DeepSeek)等为代表的人工智能技术创新呈现出蓬勃发展的态势,不断取得突破性进展。在这样的大背景下,国家提出建设新型国家语料库的战略部署,其重要性、必要性和紧迫性不言而喻。教育部语言文字应用管理司副司长王晖在3月31日的新闻发布会上强调了这一点。

王晖指出,目前在一些应用领域,特别是语言的教育教学和研究领域,虽然已经存在多个语料库,但很多语料库还停留在单一文本模式和领域应用阶段。在建设理念、技术和方法、规模,以及数据多样性、时效性等方面,尤其是与人工智能相结合的大规模应用方面,存在明显不足,难以满足多元化、动态化,特别是智能化的语言数据需求。

对于新型国家语料库的建设,王晖表示,总体考虑是立足人工智能时代的大背景,突破传统语料库单一文本模式和领域应用的壁垒。以大模型训练及性能评测、智能计算为核心,突出新质态、多模态、多语言、大规模、全域性等特性,为通用领域和细分领域的多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。

记者注意到,《教育强国建设规划纲要》明确提出要建设“新型国家语料库”。近日印发的《关于加强数字中文建设 推进语言文字信息化发展的意见》(下称《意见》)也提出,到2027年初步建成国家关键语料库和国家战略语言资源信息库等。

在3月31日的发布会上,教育部语言文字信息管理司司长刘培俊指出,将把建设语料基础设施作为新基建,以此服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。

刘培俊透露,目前教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据实际需求稳步扩大建设范围,提升建设成效。

他进一步表示,接下来将着重夯实“机制、标准、人才”三个基础。一是逐步建立健全语料共建共享新机制;二是研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准;三是依托高校研究机构推进多学科交叉融合,为语言科技、语料建设以及人工智能创新应用培养高素质人才。

王晖还透露,2025年教育部就已经启动布局新型国家语料库的建设工作,主要包括两个方面。一方面是规范引领,加强制度供给,研制语料库建设规范,为语料库建设提供基础原则和方法指引。另一方面是示范引导,采用成熟先上的策略,开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设打造整体标杆。

他解释说,“中华文脉新型语料库”可以简单理解为瞄准智慧教师,“中华大阅读体系语料库”则瞄准智慧学伴。在此基础上,将探索建设系列教育、语言文化国家新型语料库群,为教育强国、文化强国建设提供有力服务。

本文围绕教育部新型国家语料库建设展开,介绍了建设背景、现有语料库不足、总体建设思路、相关政策要求及后续规划。旨在通过建设新型国家语料库,突破传统语料库局限,满足智能化语言数据需求,为教育和文化强国建设助力。

原创文章,作者:六合柯慧,如若转载,请注明出处:https://www.xiaoyaoxin.com/archives/9415.html

(0)
六合柯慧六合柯慧
上一篇 2025年3月31日
下一篇 2025年3月31日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注