Oct, 2023

分析多语言 LLM 在多轮指令跟踪中的能力:阿拉伯语的案例研究

TL;DR在小众语言如阿拉伯语中,我们详细研究了开放式大型语言模型在回应多轮指令方面的能力,并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具,对英文和阿拉伯文进行了综合评估和比较,结果表明在不同任务类别(逻辑和文学)以英文或阿拉伯文指令时,模型的回答会有所差异。我们发现,使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后,我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。