通过对话理解评估语言模型的方言鲁棒性

May, 2024

通过对话理解评估语言模型的方言鲁棒性

Evaluating Dialect Robustness of Language Models via Conversation Understanding

Dipankar Srirag, Aditya Joshi

TL;DR增强学习模型（LLMs）在不同英语方言上的表现以及预测和选择目标词的任务的采用的方法与结果

Abstract

With an evergrowing number of llms reporting superlative performance for English, their ability to perform equitably for different dialects of English (i.e., dialect robustness) needs to be ascertained. Specifica

dialect robustness target word prediction target word selection llms dialectic dataset

发现论文，激发创造

LLM 在口语对话中的稳健性研究

使用 LLM（Large Pre-Trained Language Models）评估了在口语任务导向对话中的性能，结果表明 LLMs 默认情况下对口头噪音不够鲁棒，但在正确的口头 TOD 数据集上进行微调 / 训练可以获得更强的性能。

Jan, 2024

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

ChatGPT 中的语言偏见：语言模型强化方言歧视

GPT-3.5 Turbo 和 GPT-4 对非 “标准” 语言变体表现出语言偏见，导致理解能力减弱、刻板印象加剧，并存在辱人内容和居高临下的回应，这对非 “标准” 语言使用者产生了潜在的伤害。

Jun, 2024

基于数据增强的方言调适对 LLMs

该研究报告通过使用不同类型的语言模型并利用数据增强技术，提出了一种结合方法，旨在改善南斯拉夫南方微方言上大规模语言模型（LLMs）的通识推理能力评估，通过实验证明数据增强技术能够显著提升开源型模型类别在三个南斯拉夫方言（Chakavian、Cherkano 和 Torlak）的测试数据集上的性能，突出了数据增强的实际效用和 LLMs 在处理非标准方言方面的潜力以推进低资源和方言环境下的自然语言理解。

Apr, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

一个用于心理健康中大型语言模型的新颖细致对话评估框架

我们提出了一个新颖的框架来评估大型语言模型（LLMs）的细致对话能力，将其应用于心理健康领域，并发现 GPT4 Turbo 在特定主题上表现出与经过验证的治疗师高度相关的成绩，从而帮助研究人员开发更好的 LLMs 以更积极地支持人们的生活。

Mar, 2024

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

多语言自动对话评估

通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Aug, 2023