分析多语言LLM在多轮指令跟踪中的能力：阿拉伯语的案例研究

Oct, 2023

分析多语言LLM在多轮指令跟踪中的能力：阿拉伯语的案例研究

Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction Following: A Case Study of Arabic

Sabri Boughorbel, Majd Hawasly

TL;DR在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的MT-Bench基准套件和GPT-4作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Abstract

While significant progress has been made in benchmarking large language models (LLMs) across various tasks, there is a lack of comprehensive evaluation of their abilities in responding to multi-turn instructions

发现论文，激发创造

多语言大型语言模型还不能切换语言

本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示，虽然这些模型在使用零 / 少量提示时在某些任务中表现出色，但与较小的微调模型相比，它们的性能仍然有所不适。因此，研究者认为未来需要进一步研究来完全弥合这一差距。

May, 2023

非英语问题下不要信任GPT

本文提供了一种系统方法来衡量LLMs在多语言环境下的表现差异，探讨了LLMs的跨语言概括现象，结果表明GPT在多语言环境下表现出高度翻译一致的行为。

May, 2023

多语种是多语种LLM

通过对101种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进LLMs的多语言性能的具体属性。实验结果表明，现有的LLMs具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高LLMs的多语言表现。

Nov, 2023

超越英语：评估用于阿拉伯文语法错误纠正的LLMs

对于阿拉伯语的语法错误纠正任务，研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果，但是无论规模大小，指令微调模型的性能仍然不及完全微调的模型，此差距指出了语言模型改进的空间。同时，借鉴低资源机器翻译方法，利用合成数据也能显著提升阿拉伯语语法错误纠正的性能，在两个标准阿拉伯语数据集上创造了新的最佳结果，分别达到73.29和73.26的F1分数，相比于同行评审发表的基准模型。

Dec, 2023

LLaMA跨越英语：语言能力转移的实证研究

我们通过对LLaMA的实证研究发现，在使用不到1%的预训练数据时，可以实现与最先进的转移模型相媲美的性能，无论是在知识对齐还是响应质量方面，这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语LLMs。

Jan, 2024

基于预训练大型语言模型的乌尔都自然语言处理任务潜力评估

利用零样本学习对四种主要的神经网络模型在14个乌尔都自然语言处理任务上进行了全面对比和分析，结果表明最先进的模型在所有任务中都超越了编码器-解码器的预训练语言模型。此外，研究还发现，基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。

May, 2024

超越英语的LLMs：通过跨语言反馈扩展LLMs的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

PARIKSHA：多语言和跨文化数据上人类LLM评估者一致性的大规模调查

本研究评估了多语种大型语言模型的性能，发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜，并分析了人类评估和语言模型评估之间的一致性，发现在两两比较的设置下，人类和语言模型的一致性较高，但在直接评估中特别是对于孟加拉语和奥迪亚语等语言，一致性下降。我们还检测了人类和语言模型评估中的各种偏见，并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。

Jun, 2024

LlamAr & GemmAr：通过阿拉伯语指导调优提升LLM

我们通过创建阿拉伯语指令数据集，对两个开源模型进行微调并在多个下游任务上进行评估，最终达到了阿拉伯语自然语言处理基准的最新性能水平。

Jul, 2024

Multi-IF：多轮和多语种指令遵循的LLMs基准评估

本研究解决了当前基准主要集中于单轮单语指令的缺陷，无法全面反映多轮多语种交互的复杂性。我们提出了Multi-IF，这是一种新基准，通过结合LLM和人类注释，评估模型在多轮多语种指令执行中的能力。我们的研究发现，测试的最新LLM在多轮情况下的指令执行失败率显著提高，尤其在使用非拉丁文字的语言中表现尤为明显，显示出模型的多语种能力存在潜在局限。

Oct, 2024