北京人工智能数据运营平台发布

2024-06-16 17:21:00

北京晚报

本报讯（记者刘苏雅）6月14日，北京人工智能数据运营平台在第六届北京智源大会上发布，“行业数据集-场景应用创新计划”启动。北京智源人工智能研究院理事长、北京大学教授黄铁军表示，构建大模型生态首先要建立数据流通机制，推动从数据到智能的正反馈。

“如果没有开源数据集，很难想象人工智能怎样才能实现如此快速的迭代，然而这些数据集还远远不够。”智源研究院副院长兼总工程师林咏华坦言，特别是中文互联网的数据量相差甚远，数据孤岛问题也较为严重。

本次发布的北京人工智能数据运营平台，汇聚了大量通用数据、行业数据，支持文本、图像、视频等多种模态，打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练。同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。

当前已知的全球开源行业文本类数据集总量仅约1.2万亿字节。“这次开源的行业数据集，几乎每一项都远超全球已经开源的该行业数据集总和，是全球最大的多行业中英双语数据集。”林咏华说，数据集包含医疗、教育、法律、新闻等18类行业数据，未来将进一步扩展到30类左右。

编辑：邢爽

更多北京旅游攻略