MAPO：通过多语言对齐优化推进多语言推理

Jan, 2024

MAPO：通过多语言对齐优化推进多语言推理

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization

Shuaijie She, Shujian Huang, Wei Zou, Wenhao Zhu, Xiang Liu...

TL;DR通过采用一种对齐作为优选优化框架，我们在非中心语言中提高了推理能力，推理一致性得到了改善，并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。

Abstract

Though reasoning abilities are considered language-agnostic, existing llms exhibit inconsistent reasoning abilities across different langu

reasoning abilities llms alignment-as-preference optimization multilingual reasoning mathematical reasoning ability

发现论文，激发创造

多语言推理中问题翻译训练的力量：扩大范围与深化见解

在这篇论文中，我们研究了如何利用问题对齐方法提高大型语言模型在非英语性能上的应用，通过对可执行代码推理和常识推理的影响进行探索，并通过代理调整的方式实现对极大型语言模型的高效应用。多语言推理基准测试结果显示，问题对齐方法能够在不同推理场景、模型系列和大小上提升多语言性能。与 LLaMA2 模型相比，我们的方法平均提高了 mGSM 的准确率 12.2%，即使在 70B 模型上也是如此。通过分析表示空间、思维链和翻译数据规模，我们还揭示了问题翻译训练如何增强 LLMs 内部的语言对齐，并塑造它们的工作模式。

May, 2024

跨越多语言数学推理中的语言障碍：洞察与观察

本文首次探索和训练强大的多语种数学推理语言学习模型，通过利用翻译构建了首个多语种数学推理指令数据集 MGSM8KInstruct，提出不同的训练策略，构建了名为 MathOctopus 的强大的多语种数学推理模型，其在少样本情况下表现优于传统开源模型和 ChatGPT。

Oct, 2023

更好的多语言推理的问题翻译训练

通过问题对齐，我们训练模型将推理问题翻译成英文，以利用英文指导数据，提高大型语言模型在多语言推理任务上的性能。

Jan, 2024

打破语言障碍：通过结构化自注意力提升跨语言推理

本研究探讨了多语言语言模型（MultiLMs）在针对不同语言推理时，是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力，我们发现在单语言设置下，MultiLMs 可以在语言之间传递推理能力，但在混合代码推理的情况下，它们很难传递推理能力。基于此观察，我们提出了一种新颖的注意机制，利用专门的参数集在混合代码序列中鼓励跨语言注意力，从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。

Oct, 2023

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

MindMerger: 非英语语种中高效提升 LLM 推理能力

LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明，MindMerger 相较于其他方法具有更好的性能，尤其对于资源稀缺的语言。在 MGSM 数据集上，不更新 LLMs 的参数，平均准确率分别提升了 6.7% 和 8.0%，涵盖所有语言和资源稀缺的语言。

May, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

推理轨迹上的偏好优化

这篇论文提出使用偏好优化方法来提高语言模型的推理性能，通过在思维链中应用这些方法，可以改进语言模型在推理任务中的表现。借助理由追踪数据集，我们提出了两种补充方案：数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性，例如在 GSM8K 基准测试中，准确率相对提高了 8.47%，而不需要任何额外的注释。这项工作表明，在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。

Jun, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024