当前位置:龙泉人才网 - 科技 -

收录 250 亿 Token,Hugging Face开源“世界最大”AI 合成数据集

  • 科技
  • 2024-03-18 14:41
  • IT之家

IT之家 2 月 23 日消息,Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。

IT之家注意到,该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

收录 250 亿 Token,Hugging Face开源“世界最大”AI 合成数据集

据悉,Cosmopedia 数据集除了收录上述文本文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k,供用户轻松管理和使用。

收录 250 亿 Token,Hugging Face开源“世界最大”AI 合成数据集

Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展,感兴趣的小伙伴可以点此访问项目地址。

免责声明:本文内容来源于网络或用户投稿,龙泉人才网仅提供信息存储空间服务,不承担相关法律责任。若收录文章侵犯到您的权益/违法违规的内容,可请联系我们删除。
https://www.lqrc.cn/a/keji/108006.html

  • 关注微信
下一篇:暂无

猜你喜欢

微信公众号