Ziya2:数据为中心的学习对 LLM 来说就足够了
我们介绍了一个新的数据集 Zyda,由多个开源数据集整合而成,它拥有高质量的语料库,包含 1.3 万亿个标记。通过严格的过滤和去重处理,我们提高了 Zyda 的质量,并发现它不仅与其他开源数据集竞争力相当,还能大幅提升 Pythia 套件中可比模型的性能。我们的数据处理方法显著增强了 Zyda 的效果,甚至优于其单独使用的各个数据集中最好的效果。
Jun, 2024
本篇论文提出了以数据为中心的人工智能研究视角,着重于大型语言模型。我们首先观察到在 LLM 的发展阶段(如预训练和微调)和推理阶段(如上下文学习)中,数据起着重要作用,但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景,涵盖数据中心的基准和数据策划、数据属性、知识传递以及推理上下文化。在每个情景中,我们强调了数据的重要性,突出了有前景的研究方向,并阐述了对研究社区和整个社会可能产生的影响。例如,我们提倡为 LLM 的规模和复杂性量身定制一套以数据为中心的基准。这些基准可用于开发新的数据策划方法、记录研究工作和结果,有助于促进人工智能和 LLM 研究的开放性和透明度。
Jun, 2024
通过引入视觉语义,将大规模的视觉 - 语言模型 (LVLMs) 融合到多模态对话中,Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片 - 文本生成和理解能力。
Oct, 2023
该论文介绍了 YuLan 的开发,这是一系列具有 120 亿参数的开源 LLMs,其基础模型在多样化语料库中进行了预训练,并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据,结合指导调整和人工对齐的后续训练阶段,以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习,YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。
Jun, 2024
Baichuan 2 是一系列大规模多语言语言模型,包含 70 亿和 130 亿参数,从头开始训练,共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能,如 MMLU、CMMLU、GSM8K 和 HumanEval,此外,Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点,以便研究界更好地理解 Baichuan 2 的训练动态。
Sep, 2023
通过数据的有效利用,我们研究了大型语言模型的训练,提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性,同时以高效的方式训练模型。
Feb, 2024
此研究拓展了大型语言模型(LLMs)的应用,探索了它们在数据预处理中的潜力,包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架,用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。
Aug, 2023
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
使用以预训练大型语言模型(LLM)为基础的 LLM2LLM 方法,通过数据增强和迭代,显著提高 LLM 在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的 LLM 解决方案铺平了道路。
Mar, 2024