打破语言障碍：通过结构化自注意力提升跨语言推理

EMNLPOct, 2023

打破语言障碍：通过结构化自注意力提升跨语言推理

Breaking the Language Barrier: Improving Cross-Lingual Reasoning with Structured Self-Attention

Negar Foroutan, Mohammadreza Banaei, Karl Aberer, Antoine Bosselut

TL;DR本研究探讨了多语言语言模型（MultiLMs）在针对不同语言推理时，是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力，我们发现在单语言设置下，MultiLMs 可以在语言之间传递推理能力，但在混合代码推理的情况下，它们很难传递推理能力。基于此观察，我们提出了一种新颖的注意机制，利用专门的参数集在混合代码序列中鼓励跨语言注意力，从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。

Abstract

In this work, we study whether multilingual language models (MultiLMs) can transfer logical reasoning abilities to other languages when they are fine-tuned for reasoning in a different language. We evaluate the c

multilingual language models logical reasoning abilities cross-lingual reasoning code-switched reasoning attention mechanism

发现论文，激发创造

跨越多语言数学推理中的语言障碍：洞察与观察

本文首次探索和训练强大的多语种数学推理语言学习模型，通过利用翻译构建了首个多语种数学推理指令数据集 MGSM8KInstruct，提出不同的训练策略，构建了名为 MathOctopus 的强大的多语种数学推理模型，其在少样本情况下表现优于传统开源模型和 ChatGPT。

Oct, 2023

基于注意力头的公共常识推理跨语言迁移研究

本研究提出一个新的简单方法，利用预先训练的跨语言模型来进行常识推理，并在多语言 Winograd 模式语料库上进行了评估，结果表明即使在其他语言中零样本情况下，该方法具有与监督和非监督方法相当的性能表现，并提供了多语言编码器普遍推理能力的证据。

Jun, 2021

推理类型对跨语言转移绩效的影响分析

通过构建带有类别注释的多语言 NLI 数据集，我们研究了多种类型的推理对跨语言迁移效率和小样本选择的影响。我们的统计结果表明，推理类型和语言相似性的汇流对于迁移性能有着越来越重要的影响。

Oct, 2021

通过代码从 LLMs 中引出更好的多语言结构化推理

大型语言模型在多语言结构推理和解释数据集 xSTREET 上表现出进展，通过使用机器翻译增强具有多语言评论的代码数据集，以及在推理时使用包含逐步代码原语的提示结构，提供了改善多语言性能的两种方法。

Mar, 2024

大型语言模型是跨语言无领域知识的推理者

跨语言能力：大型语言模型在不同语言的推理任务中展示出令人印象深刻的推理能力。本研究将推理任务分解为两个独立的部分：知识检索和无知识推理，并分析它们的跨语言可迁移性。通过适应和构建无知识推理数据集，我们展示了无知识推理能力可以在各种资源中几乎完全可转移，尽管在某些特定目标语言中存在资源的次要影响，而跨语言知识检索显著阻碍了迁移。此外，通过分析推理任务中的隐藏状态和前馈网络神经元的激活，我们展示了隐藏表示的更高相似性和激活神经元的更大重叠可以解释无知识推理比知识检索具有更好的跨语言可迁移性。因此，我们假设无知识推理嵌入了某种语言共享的机制，而知识则分别存储在不同的语言中。

Jun, 2024

多语言推理中问题翻译训练的力量：扩大范围与深化见解

在这篇论文中，我们研究了如何利用问题对齐方法提高大型语言模型在非英语性能上的应用，通过对可执行代码推理和常识推理的影响进行探索，并通过代理调整的方式实现对极大型语言模型的高效应用。多语言推理基准测试结果显示，问题对齐方法能够在不同推理场景、模型系列和大小上提升多语言性能。与 LLaMA2 模型相比，我们的方法平均提高了 mGSM 的准确率 12.2%，即使在 70B 模型上也是如此。通过分析表示空间、思维链和翻译数据规模，我们还揭示了问题翻译训练如何增强 LLMs 内部的语言对齐，并塑造它们的工作模式。

May, 2024

更好的多语言推理的问题翻译训练

通过问题对齐，我们训练模型将推理问题翻译成英文，以利用英文指导数据，提高大型语言模型在多语言推理任务上的性能。

Jan, 2024

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

MindMerger: 非英语语种中高效提升 LLM 推理能力

LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明，MindMerger 相较于其他方法具有更好的性能，尤其对于资源稀缺的语言。在 MGSM 数据集上，不更新 LLMs 的参数，平均准确率分别提升了 6.7% 和 8.0%，涵盖所有语言和资源稀缺的语言。

May, 2024

LLMs 中并非所有语言的质量相同：通过跨语言思维提示提高多语言能力

本研究提出了一种名为跨语言思维提示（XLT）的方法，通过激发跨语言和逻辑推理技能，改善了大语言模型的多语言能力，并在与推理、理解和生成有关的 7 个基准测试中进行了全面的评估，实验结果显示 XLT 不仅显著提高了各种多语种任务的性能，而且还显著减少了不同语言中每个任务平均性能和最佳性能之间的差距。

May, 2023