生成混合模式语言模型的缩放定律
本研究提出了一种统一的缩放定律 BiMix,准确地模拟了数据数量和混合比例的双变量缩放行为,通过使用低成本的代理策略优化数据筛选,以提高训练效率。实验证据表明,基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相媲美甚至更好的性能。我们希望这些定量研究结果能为高效语言建模的进一步研究和开发提供启示。
May, 2024
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
本文使用语言模型的扩展性行为来估计目前方法在训练中使用的计算规模下,会产生具有类似基于文本的大型语言模型的英语熟练度的语音语言模型。我们展示了语言模型和大型语言模型的预训练损失与下游句法和语义性能之间存在强相关性,从而导致语言性能的可预测扩展。我们还表明,与基于文本的大型语言模型相比,语音语言模型的语言性能扩展速度慢三个量级。此外,我们研究了旨在提升语义理解的合成数据的益处以及更粗糙的语音分词的影响。
Mar, 2024
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
通过调整视觉指导,对开源大型多模态模型进行扩展研究,探索影响多模态和语言能力的变量,发现扩展模型能够提升性能,具有与整个模型微调相当的效果,并强调了提高图像分辨率和混合多模态语言数据对性能的重要性,有时视觉指导可以提高纯语言功能。
Sep, 2023
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域,我们发现交叉熵损失的实证缩放定律,指出自回归变压器在性能上平滑提高,其最佳模型大小还受到计算预算影响,同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放定律对于神经网络性能以及下游任务的重要影响。
Oct, 2020
本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果,并提出了可衡量计算优化性的缩放规律,并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。
May, 2023