本报讯(记者刘苏雅)6月14日,北京人工智能数据运营平台在第六届北京智源大会上发布,“行业数据集-场景应用创新计划”启动。北京智源人工智能研究院理事长、北京大学教授黄铁军表示,构建大模型生态首先要建立数据流通机制,推动从数据到智能的正反馈。
“如果没有开源数据集,很难想象人工智能怎样才能实现如此快速的迭代,然而这些数据集还远远不够。”智源研究院副院长兼总工程师林咏华坦言,特别是中文互联网的数据量相差甚远,数据孤岛问题也较为严重。
本次发布的北京人工智能数据运营平台,汇聚了大量通用数据、行业数据,支持文本、图像、视频等多种模态,打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练。同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。
当前已知的全球开源行业文本类数据集总量仅约1.2万亿字节。“这次开源的行业数据集,几乎每一项都远超全球已经开源的该行业数据集总和,是全球最大的多行业中英双语数据集。”林咏华说,数据集包含医疗、教育、法律、新闻等18类行业数据,未来将进一步扩展到30类左右。