北京人工智能数据运营平台发布

  • 2024-06-16 17:21:00
  • 北京晚报

本报讯(记者刘苏雅)6月14日,北京人工智能数据运营平台在第六届北京智源大会上发布,“行业数据集-场景应用创新计划”启动。北京智源人工智能研究院理事长、北京大学教授黄铁军表示,构建大模型生态首先要建立数据流通机制,推动从数据到智能的正反馈。

“如果没有开源数据集,很难想象人工智能怎样才能实现如此快速的迭代,然而这些数据集还远远不够。”智源研究院副院长兼总工程师林咏华坦言,特别是中文互联网的数据量相差甚远,数据孤岛问题也较为严重。

本次发布的北京人工智能数据运营平台,汇聚了大量通用数据、行业数据,支持文本、图像、视频等多种模态,打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练。同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。

当前已知的全球开源行业文本类数据集总量仅约1.2万亿字节。“这次开源的行业数据集,几乎每一项都远超全球已经开源的该行业数据集总和,是全球最大的多行业中英双语数据集。”林咏华说,数据集包含医疗、教育、法律、新闻等18类行业数据,未来将进一步扩展到30类左右。

  • 编辑: 邢爽
原创声明:本文是北京旅游网原创文章,其最终版权仍归北京旅游网所有,转载请注明来自北京旅游网

征文启事

为能让网友分享自己美好旅途,记录旅途美好回忆,北京旅游网特面向全球网友公开征集文旅类稿件。范围涵括吃喝玩乐游购娱展演等属于文旅范畴的内容均可,形式图文、视频均可。

稿件必须原创。稿件一经采用,即有机会获得景区门票、精美礼品,更有机会参与北京旅游网年终盛典活动。

投稿邮箱:tougao@visitbeijing.com.cn

咨询QQ:490768046

北京旅游网京ICP备17049735号-1京公网安备 11010502035003号

版权所有:北京市文化和旅游局宣传中心(北京市旅游运行监测中心)