大语言猴子:通过重复采样扩大推理计算能力
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于Gopher,GPT-3,Jurassic-1和Megatron-Turing NLG。
Mar, 2022
本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密集大型语言模型的计算效率和性能。
May, 2023
本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果,并提出了可衡量计算优化性的缩放规律,并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。
May, 2023
Languini Kitchen为研究人员提供有限计算资源以在语言建模领域有意义贡献的研究集体和代码库,通过实验协议介绍了以加速器时间为基准进行模型比较的方法;该研究还提供了两种基线模型,GPT-2架构的前馈模型和具有10倍吞吐量的LSTM递归模型,通过估算实验在不同计算级别上的经验扩展趋势,研究发现LSTM模型具有可预测且更有利的比例规律。
Sep, 2023
基于大型语言模型(LLM)的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而,这些公式,包括流行的DeepMind Chinchilla扩展规律,忽略了推理成本。我们修改了Chinchilla扩展规律,以计算训练和部署具有特定质量和推理需求的模型的最佳LLM参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析,发现预计具有相当大的推理需求(约10亿个请求)的LLM研究人员应该训练比Chinchilla-optimal更小且更长的模型。
Dec, 2023
通过研究扩展定律,我们发现了DeepSeek LLM在两种常用的开源配置下,7B和67B,用于扩展大规模模型的独特发现,并介绍了DeepSeek LLM项目的长期前景。通过创建包含2万亿标记的数据集并不断扩展,来支持预训练阶段。我们在DeepSeek LLM基础模型上进行有监督的微调和直接偏好优化,从而创建了DeepSeek Chat模型。评估结果表明,DeepSeek LLM 67B在各种基准测试中均超过LLaMA-2 70B,尤其在代码、数学和推理领域。此外,开放式评估显示DeepSeek LLM 67B Chat在性能上优于GPT-3.5。
Jan, 2024
通过观测法利用多个已有模型家族构建单一的扩展律,展示了复杂的扩展现象是可预测的,模型性能可以从简单的非代理基准准确预测,预测了后期训练干预的影响。
May, 2024
Kaplan等人和Hoffmann等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现Kaplan定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与Hoffmann等人(即“Chinchilla”)的定律取得了很好的一致性;与Hoffmann等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整AdamW的β2参数至关重要。
Jun, 2024
本研究针对大型语言模型(LLMs)推理配置不充分探索的问题,提出了一种计算最优推理的方法。我们评估了多种推理策略的有效性和计算效率,发现利用较小的语言模型和新颖的树搜索算法可以在预算受限情况下实现最佳的性能和计算成本配比。这一发现为在资源有限的环境中提升问题解决准确性提供了新的思路。
Aug, 2024
本研究解决了在大型语言模型(LLM)测试时间计算的规模问题,探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略,能够根据提示的难度动态分配计算资源,经过验证,此策略比现有基准提高了超过4倍的计算效率,并在特定情况下超越了14倍大模型的性能。
Aug, 2024