中国网络空间安全协会近日宣布了一项重大举措,正式推出了中文互联网语料资源平台,这一平台旨在为用户提供丰富多样的中文语料资源。该平台于1月9日正式上线,并面向全社会开放。
在中央网信办的指导下,中国网络空间安全协会携手国家互联网应急中心,在已有的中文互联网基础语料1.0的基础上,进一步升级并发布了中文互联网基础语料2.0。这一新版本经过严格的信源筛选、内容过滤和数据去重等处理,确保了数据的高质量和可信度。据悉,该语料库规模达到了120GB,包含3800万条数据。
平台的语料数据集涵盖了多个领域和模态,用户可以根据行业领域、内容模态以及体量规模等多种标签进行分类筛选,从而轻松找到所需资源。目前,平台已经吸引了27个语料数据集入驻,总数据量高达2.7T。
这些语料数据集主要分为三类:第一类是由中国网络空间安全协会与国家互联网应急中心等联合建设的中文互联网基础语料;第二类则是由人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;第三类则是由中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等机构提供的优质中文基础语料样本。
用户只需登录中国网络空间安全协会官方网站,点击“中文互联网语料资源平台”链接,完成注册和认证程序后,即可自由下载所需的语料资源。这一平台的推出,无疑为中文信息处理、自然语言处理以及人工智能等领域的研究和应用提供了强有力的支持。
中国网络空间安全协会人工智能安全治理专委会负责人表示,数据是人工智能发展的基石,中文互联网基础语料2.0的发布是各界共同努力、协同共建高质量中文语料的重要成果。未来,专委会将继续加强中文互联网基础语料的建设工作,为人工智能技术的创新和产业发展提供更加坚实的支撑和保障。