跨越多语言数学推理中的语言障碍:洞察与观察
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
本研究探讨了多语言语言模型(MultiLMs)在针对不同语言推理时,是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力,我们发现在单语言设置下,MultiLMs 可以在语言之间传递推理能力,但在混合代码推理的情况下,它们很难传递推理能力。基于此观察,我们提出了一种新颖的注意机制,利用专门的参数集在混合代码序列中鼓励跨语言注意力,从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。
Oct, 2023
大型语言模型在多语言结构推理和解释数据集 xSTREET 上表现出进展,通过使用机器翻译增强具有多语言评论的代码数据集,以及在推理时使用包含逐步代码原语的提示结构,提供了改善多语言性能的两种方法。
Mar, 2024
LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明,MindMerger 相较于其他方法具有更好的性能,尤其对于资源稀缺的语言。在 MGSM 数据集上,不更新 LLMs 的参数,平均准确率分别提升了 6.7% 和 8.0%,涵盖所有语言和资源稀缺的语言。
May, 2024
通过识别推理路径的最佳集合来确定推理路径增强的能力边界,通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力,以较低的建设成本实现 SOTA 性能,并提供用于鲁棒性测试和教育应用的自动问题生成器。
Feb, 2024
通过采用一种对齐作为优选优化框架,我们在非中心语言中提高了推理能力,推理一致性得到了改善,并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。
Jan, 2024
为了促进通识推理(CSR)的进一步发展,作者提出了用于评估和改进流行的多语言语言模型(ML-LMs)的方法,其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练(MCP)的有效性。作者还创建了两个新数据集,X-CSQA 和 X-CODAH,以评估流行的 ML-LMs 用于跨语言通识推理的能力。
Jun, 2021
在这篇论文中,我们研究了如何利用问题对齐方法提高大型语言模型在非英语性能上的应用,通过对可执行代码推理和常识推理的影响进行探索,并通过代理调整的方式实现对极大型语言模型的高效应用。多语言推理基准测试结果显示,问题对齐方法能够在不同推理场景、模型系列和大小上提升多语言性能。与 LLaMA2 模型相比,我们的方法平均提高了 mGSM 的准确率 12.2%,即使在 70B 模型上也是如此。通过分析表示空间、思维链和翻译数据规模,我们还揭示了问题翻译训练如何增强 LLMs 内部的语言对齐,并塑造它们的工作模式。
May, 2024
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023