基于数据增强的方言调适对 LLMs

Apr, 2024

Data-Augmentation-Based Dialectal Adaptation for LLMs

Fahim Faisal, Antonios Anastasopoulos

TL;DR该研究报告通过使用不同类型的语言模型并利用数据增强技术，提出了一种结合方法，旨在改善南斯拉夫南方微方言上大规模语言模型（LLMs）的通识推理能力评估，通过实验证明数据增强技术能够显著提升开源型模型类别在三个南斯拉夫方言（Chakavian、Cherkano 和 Torlak）的测试数据集上的性能，突出了数据增强的实际效用和 LLMs 在处理非标准方言方面的潜力以推进低资源和方言环境下的自然语言理解。

Abstract

This report presents GMUNLP's participation to the Dialect-Copa shared task at VarDial 2024, which focuses on evaluating the commonsense reasoning capabilities of large language models (LLMs) on →

commonsense reasoning large language models south slavic micro-dialects data augmentation techniques non-standard dialectal varieties

发现论文，激发创造

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

通过对话理解评估语言模型的方言鲁棒性

增强学习模型（LLMs）在不同英语方言上的表现以及预测和选择目标词的任务的采用的方法与结果

May, 2024

面向任务无关的低秩适配器用于未见过的英语方言

通过利用专家语言知识，我们的方法 HyperLoRA 可以通过超网络实现资源高效的适应，从而提高对未知方言的泛化能力，为数十亿传统上代表性不足的英语方言使用者提供语言技术的便利访问。

Nov, 2023

我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

通过一系列干预和实验证明，我们可以理解语言模型对于存在语言变异（例如非标准或方言文本）的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预，通过不同规模和性质的训练数据进行语言模型适应，我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。

Apr, 2024

低资源自动语音识别的方言适应和数据增强：MADASR 2023 挑战中的 TalTech 系统

通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应，Tallinn University of Technology（TalTech）在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进，并实现了参与团队中最低的词错误率。

Oct, 2023

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

使用 LLMs 的数据增强：数据视角、学习范式和挑战

机器学习中的数据增强技术通过多样化训练示例来提高模型性能，本文调查了大型语言模型在自然语言处理和其他领域中对数据增强的转变影响，探讨了利用大型语言模型进行数据增强的各种策略以及所面临的挑战。

Mar, 2024

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

低资源开放领域对话生成的可控且多样化的数据增强

利用大规模语言模型 (LLM) 进行以摘要为基础的对话增强 (SDA) 以提高语义多样性和控制能力，通过生成高质量和多样化的对话数据来增强开放领域对话模型的性能。

Mar, 2024

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023