May, 2024

多语言聊天数据集:Tagengo

TL;DR我们提供了一个高质量的数据集,包含 74 种语言中的超过 70k 个提示 - 回应对,用于训练最先进的开源英语语言模型,以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中,我们的多语言模型优于先前的开源语言模型。此外,我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练(如日语),从而提高性能。这些结果表明,在大量高质量多语言数据的训练下,实现更易用的语言模型变得必要。