Sep, 2024

仅解码器模型在多语言机器翻译任务中的扩展规律

TL;DR本研究解决了仅解码器模型在多语言机器翻译中的应用缺乏深入研究的问题。通过对一系列不同规模的仅解码器模型进行实验,我们提出了一种与大语言模型类似的扩展规律,但发现该规律对过大模型或不同数据分布的泛化存在困难。此外,我们研究了不同的扩展方法,并指出扩展模型的深度和宽度对测试损失的影响虽然相似,但对模型效率的影响不同。