Jun, 2024

朝着真实的多语言大型语言模型迈进:基准测试和对齐策略

TL;DR在大型语言模型(LLMs)时代,构建能够为全球用户提供服务的多语言大型语言模型(MLLMs)具有重要意义。然而,现有研究很少关注 MLLMs 的真实性。同时,当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距,特别是那些与英语差距较大的语言。在我们的工作中,我们构建了一个用于多语言场景下真实性评估的基准,并探索了跨语言对齐事实以增强 MLLMs 真实性的方法。此外,我们提出了面向事实感知的多语言选择协同(FaMSS),以优化大量语言和不同数据类型之间的数据分配。实验结果表明,我们的方法可以有效减少多语言表示差异并增强 LLMs 的多语言能力。