GLaM: 使用专家混合方法高效扩展语言模型
利用单一多语言语言模型(LM)来进行多语言浅层融合任务,并将其应用于最先进的端到端模型,相对于类似推理期间的密集 LM ,GLaM 可将英语长尾测试集的 WER 降低 4.4 %,平均相对 WER 降低 3.85%,并且最高降低 10%。
Feb, 2023
对大型语言模型(LLMs)进行了综述,包括三个流行的 LLM 系列(GPT,LLaMA,PaLM)的特点、贡献和局限性,同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标,最后讨论了未来的挑战和研究方向。
Feb, 2024
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。
Oct, 2022
这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡,旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法,从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具,为 AI 语言建模的可持续和可访问的未来做出了贡献。
Sep, 2023
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
该论文介绍了 Galactica: 一个可以存储、组合和推理科学知识的大型语言模型。通过在大量科学文章、参考资料、知识库和其他来源上的模型训练,我们在多个科学任务上超越了现有模型。这表明了语言模型作为科学新接口的潜力。
Nov, 2022
在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现,并探讨了 GPT-3 模型优势和局限性。
May, 2020