Apr, 2024

评估和缓解大型语言模型中的语言歧视

TL;DR通过使用多种语言进行训练,大型语言模型(LLMs)通常具有多语言支持,并展示出在不同语言描述的任务中解决问题的显著能力。然而,由于在不同语言之间训练数据的不均衡分布,LLMs 可能表现出语言歧视,即面对相同任务但在不同语言中描述时,难以保持一致的响应。在本研究中,我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集(AdvBench 和 NQ)对四个 LLMs(Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro)进行分析。结果显示,与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比,LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力(平均有 1.04%的有害查询成功越狱)。此外,对于英语、丹麦语、捷克语和斯洛文尼亚语的查询,LLMs 倾向于产生具有更高质量的响应(平均 F1 得分为 0.1494),与其他语言相比。基于这些发现,我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示,LDFighter 不仅显著降低了成功越狱的概率,还平均改善了响应质量,证明了其有效性。