更好的多语言推理的问题翻译训练

Jan, 2024

更好的多语言推理的问题翻译训练

Question Translation Training for Better Multilingual Reasoning

Wenhao Zhu, Shujian Huang, Fei Yuan, Shuaijie She, Jiajun Chen...

TL;DR通过问题对齐，我们训练模型将推理问题翻译成英文，以利用英文指导数据，提高大型语言模型在多语言推理任务上的性能。

Abstract

large language models show compelling performance on reasoning tasks but they tend to perform much worse in languages other than English. This is unsurprising given that their training data largely consists of English text and instructions. A typical solution is to translate instructio

large language models multilingual reasoning question alignment translate-training approach maths reasoning benchmarks

发现论文，激发创造

多语言推理中问题翻译训练的力量：扩大范围与深化见解

在这篇论文中，我们研究了如何利用问题对齐方法提高大型语言模型在非英语性能上的应用，通过对可执行代码推理和常识推理的影响进行探索，并通过代理调整的方式实现对极大型语言模型的高效应用。多语言推理基准测试结果显示，问题对齐方法能够在不同推理场景、模型系列和大小上提升多语言性能。与 LLaMA2 模型相比，我们的方法平均提高了 mGSM 的准确率 12.2%，即使在 70B 模型上也是如此。通过分析表示空间、思维链和翻译数据规模，我们还揭示了问题翻译训练如何增强 LLMs 内部的语言对齐，并塑造它们的工作模式。

May, 2024

使用翻译增强的多语言问答转移学习

本文探索了提高多语言问题回答的交叉语言转移性能的策略，包括使用机器翻译生成的数据来增强原始英语训练数据，以及提出两种新颖的策略：语言对抗性训练和语言仲裁框架，这些策略显著提高了零资源的交叉语言转移性能，并导致 LM 嵌入不那么语言特定的结果。经验证明，这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。

Dec, 2020

跨越多语言数学推理中的语言障碍：洞察与观察

本文首次探索和训练强大的多语种数学推理语言学习模型，通过利用翻译构建了首个多语种数学推理指令数据集 MGSM8KInstruct，提出不同的训练策略，构建了名为 MathOctopus 的强大的多语种数学推理模型，其在少样本情况下表现优于传统开源模型和 ChatGPT。

Oct, 2023

打破语言障碍：通过结构化自注意力提升跨语言推理

本研究探讨了多语言语言模型（MultiLMs）在针对不同语言推理时，是否能够将逻辑推理能力转移到其他语言。通过在两种方案中评估 MultiLMs 的跨语言推理能力，我们发现在单语言设置下，MultiLMs 可以在语言之间传递推理能力，但在混合代码推理的情况下，它们很难传递推理能力。基于此观察，我们提出了一种新颖的注意机制，利用专门的参数集在混合代码序列中鼓励跨语言注意力，从而在 RuleTaker 和 LeapOfThought 数据集上分别将推理性能提高了 14% 和 4%。

Oct, 2023

MAPO：通过多语言对齐优化推进多语言推理

通过采用一种对齐作为优选优化框架，我们在非中心语言中提高了推理能力，推理一致性得到了改善，并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。

Jan, 2024

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力

通过在语言模型中建立语义对齐，该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型（It-LLMs）的方法，通过交叉语言指导和翻译指导演示，提高语义对齐，并在六种不同语言上的多语言问答基准测试中验证其方法的效果。

Aug, 2023

借助语言对齐将大型语言模型推广到非英语语境

通过建立语言间的语义对齐，提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力，并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%，在汉语人文任务上超过英语模型 8.2%。同时发现，使用非英语文本作为翻译数据的目标端特别有效，且随着翻译任务数据规模的扩大，语言模型内部的语义对齐能够进一步加强。

Aug, 2023

多语言问答的翻译学习

该研究探讨多语种问答中的翻译方法，并提出基于学习的翻译方法，通过模型训练并结合语言分类器实现翻译，结果比强基准模型表现更优。

Sep, 2016

通过代码从 LLMs 中引出更好的多语言结构化推理

大型语言模型在多语言结构推理和解释数据集 xSTREET 上表现出进展，通过使用机器翻译增强具有多语言评论的代码数据集，以及在推理时使用包含逐步代码原语的提示结构，提供了改善多语言性能的两种方法。

Mar, 2024