likes
comments
collection
share

开源红睡袍——1.2万亿参数的基于LLaMA的训练数据集

作者站长头像
站长
· 阅读数 3

GPT-4等基础模型推动了AI的快速迭代。然而,当前最强劲的模型基本都是闭源的商业模型或者仅仅是部分开放的模型。红睡袍(RedPajama)是一个意图创建一系列先进的、完全开源模型的项目。今天,刚刚完成了项目的第一步:复刻超1.2万亿个参数的LLaMA训练数据集。

目前最强大的基础模型都躲藏在商业API之后,这限制了研究、定制和使用。如果开源社区能够弥合与闭源模型之间的质量差距,那完全开源模型就可以消除这些限制。最近,这方面取得了很大进展。从各个方面来看,人工智能正在迎来类似Linux大爆发的时刻。Stable Diffusion的例子表明,开源模型不仅可以与DALL-E这些商业产品的质量相媲美,还可以通过全球社区的广泛参与带来超乎想象的创造力。随着最近发布的LLaMAAlpacaVicunaKoala等半开源模型,围绕大语言模型的运动已经如火如荼地展开;也包括一些完全开放的模型,如PythiaOpenChatKitOpen AssistantDolly

刚刚发布的红睡袍(RedPajama),旨在产生可复制的、完全开放的、领先的语言模型。红睡袍是TogetherOntocord.ai苏黎世联邦理工学院DS3实验室DS3实验室斯坦福基础模型研究中心(CRFM)斯坦福哈叙研究实验室魁北克人工智能研究院米拉学院之间合作的产物。红睡袍具有三个关键组件:

  1. 质量高、范围广的预训练数据

  2. 能够进行大规模训练的基础模型数据

  3. 可进行模型改进的、安全可用的指令精调数据集

今天发布的是第一个组件,预训练数据。

红睡袍的基石是LLaMA模型,LLaMA是先进的开放基础模型套件,选择它的原因有二:首先,LLaMA是在一个非常巨大的数据集(1.2 万亿个参数)上训练的,该数据集经过了仔细的过滤,有明确的质量保障。其次,70亿参数的LLaMA模型经过了更长时间的训练,远远超越了大语言模型在模型大小和训练语料数量的Chincilla平衡点,确保了此种大小模型上的最佳效果。70亿参数模型对于开放社区极其有价值,因为它可以在各种GPU上运行,包括许多消费级GPU。然而,LLaMA 及其所有衍生物(包括Alpaca、Vicuna和Koala)仅可用于非商业目的的研究。我们的目标则是创建LLaMA的完全开源替代品,既可用于商业应用,还为学术研究提供更透明的通道。

红睡袍基础数据集

红睡袍完整的1.2万亿参数数据集和一个更小的、更容易运行的随机样本可以通过Hugging Face下载。完整数据集在磁盘上解压缩后约为5TB,压缩后的下载量约为3TB。

RedPajama-Data-1T一共七个数据来源:

  • CommonCrawl:CommonCrawl的五个档案数据集,使用CCNet管道进行处理,并通过多个质量过滤器进行了过滤,包括选择了类似维基百科页面的线性分类器。

  • C4:标准C4数据集

  • GitHub:GitHub数据,按许可证和质量过滤而来

  • arXiv:移除文件索引的科学文章

  • 开放书籍:开放书籍语料库,根据内容相似度进行了去重

  • 维基百科:维基百科页面的子集,删除索引

  • StackExchange:流行网站StackExchange下的一个子集,去除了索引文件

对于每个数据来源,仔细进行了数据预处理和过滤,并调整了质量过滤器以大致匹配LLaMA论文中Meta AI得出的参数数量:

来源RedPajamaLLaMA*
CommonCrawl8780亿8520亿
C41750亿1900亿
Github590亿1000亿
开放书籍260亿250亿
ArXiv280亿330亿
维基百科240亿250亿
StackExchange200亿270亿
全部1.2万亿1.25万亿

Github上已公开提供所有预处理数据和质量过滤器。任何人都可以按照数据预备方法复制RedPajama-Data-1T。

红睡袍基础数据集的交互式分析

Meerkat项目的合作帮助发布了一个Meerkat仪表板和内嵌组件,用于浏览语料库的Github子集。这是仪表板的预览效果图:

使用Meerkat仪表板以交互方式浏览红睡袍基础数据集中的数据并查看匹配记录
开源红睡袍——1.2万亿参数的基于LLaMA的训练数据集

如何安装和使用仪表板的说明可以在Github上找到

下一步:模型、指令和OpenChatKit

复刻预训练数据后,下一步就是训练一个强大的基础模型。作为INCITE计划的一部分,在橡树岭先进计算设施 (OLCF)的支持下,正在训练一整套模型,第一批模型将在未来几周内推出。

一旦有了强大的基础模型,就可以用指令精调模型了。Alpaca展示了指令精调的力量——仅需5万条高质量、多样化的指令,模型就能够解锁令人惊叹的改进效果。而通过OpenChatKit已汇集了数十万条高质量的自然用户的指令,这些指令将用于发布红睡袍模型的指令优化版。