AI2发布大语言模型开源数据集Dolma 包含3万亿个token

投稿号 • 2023年8月24日 12:18 • 热点 • 阅读 142

投稿号（tougaohao.com）8月24日消息:美国艾伦人工智能研究所（AI2）最近发布了一个名为Dolma的开源数据集，其包含了3万亿个token，这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。

Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”，计划于2024年初发布。为了开发OLMo，AI2构建了庞大的Dolma数据集。

Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差，团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。

Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。

Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。

在AI2看来，理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险，尤其是那些可能影响个人的风险。

项目网址:https://huggingface.co/datasets/allenai/dolma

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

北京监理公司排名一览表(北京监理公司排名)

上一篇 2023年8月24日 12:07

德国未来几年将在人工智能领域投资超过 16 亿欧元

下一篇 2023年8月24日 12:19

热点
苏翊鸣保送清华大学！
6 月 15 日，国家体育总局科教司发布关于 2023 年优秀运动员本科保送推荐名单的公示，公示时间为 2023 年 6 月 15 日至 21 日。名单显示，单板滑雪运动员苏翊鸣保送推荐清华大学。经相关招生院校省级体育行政部门…
投稿号
热点 2023年6月18日
970
热点
什么叫基金定投（定投是什么意思）
说实在的，买基金用定投，这其实是一个说烂了的话题，但是问题在于，我看了很多的关于定投的文章，要么是一味的夸大定投，要么是鄙视得一钱不值，想来想去，只好自己也来凑个热闹吧。先来解释一下，什么是基金定投。基金定投是定期定额投资基金的简…
投稿号
热点 2022年10月3日
1590
热点
对邮局海关来自有什么建议
提高效率，提供更多信息和提高服务质量。 1、提高效率：为了确保快建给包裹能够及时送达，邮局海关应该加强流程管理和技术投入。例如，可以使用自动化技术来提高处理速度，并优化人员配置以缩短等待时间。 2、提供更多信息：邮局海关应该为进口…
投稿号
热点 2023年6月21日
1290
《人世间》周家3兄妹的贵人2位相继离世，只有周蓉最幸运

该剧以发生在周家三兄妹身上的故事为切入点，真实再现了新中国的改革变迁，最牵动大家的还是三兄妹的命运，在周氏三兄妹身上，看到了周秉义为百姓幸福鞠躬尽瘁的人民公仆的身影，看到了周秉昆孝顺、善良、仗义的小老百姓的身影，同时也看到了周蓉以…
投稿号
2023年1月4日 • 热点
1370
热点
端午节是法定假日么？
端午节是法定假日么端午节是法定节日的，端午节法定假日是1天。如果端午节上班应发放三倍工资。《劳动法》第四十四条规定，有下列情形之一的，用人单位应当按照下列标准支付高于劳动者正常工作时间工资的工资报酬： (一)安排劳动者延长工…
投稿号
热点 2022年10月25日
1810
热点
[诗歌]酒歌
一官酒有浊名　　官酒有浊名，市酒杂躁声。（1）　　何如自家饮，举杯风月清。　　薄肴亲置厨，羞向公款营。　　珍醇儿女敬，不在赋税中。　　开杯入空肠，两盏颊微红。（2）　　三卮仰天地，推窗唤来风！（3）　　续饮向醺醺，涩…
投稿号
热点 2023年2月4日
1450
热点
塞尔维亚和科索沃是什么关系(塞尔维亚和科索沃是什么关系)
一直以来，世界都没有真正和平过，很多地方依然有着冲突和战争。近日，大家对塞尔维亚和科索沃的局势比较关注，很多人对这两个地方都不太了解，也十分好奇。那么，塞尔维亚和科索沃是什么关系呢？下面小编就给大家介绍下，一起来详细了解看看吧。 …
投稿号
热点 2023年5月30日
2590
热点
幽灵线东京英语(东京英语)
今天小编给各位分享东京英语的知识，其中也会对幽灵线东京英语进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！东京英文怎么读 “喊镇东京”的英文是Tokyo. 英 [‘təukjəu] 美 [&#8…
投稿号
热点 2023年5月11日
1720
热点
PS5新机型什么时候发售(PS5新机型)
索尼旗下的PS5游戏主机相信很多游戏玩家在用，而此前有传闻称，索尼将推出PS5全新版本的游戏主机，据最新消息，索尼终于推出了的那款曝光已久可拆卸光驱版PS5主机。那么，PS5新机型什么时候发售呢？据悉，PS5新型号将于今年11月在…
投稿号
热点 2023年10月12日
960
热点
今日入伏头伏中暑指数地图出炉最新今天全国天气预报
6月以来，我国多地遭遇极端高温天气，不少人直呼“热度爆表堪比三伏”。这样的热度还在持续，今天（7月11日）我国正式入伏，这意味着一年中最热的时候到了。今年三伏有多长？会比前期更热吗？哪里将开启“伏”汤蹈火模式？中国天气网特别推出…
投稿号
热点 2023年7月11日
1200

发表回复

登录后才能评论

AI2发布大语言模型开源数据集Dolma 包含3万亿个token

关于作者

热点推荐

发表回复