生成数据增强利用 LLMs 改善问答中的分布鲁棒性
介绍了 Dr. LLaMA,这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法,主要关注医学问答任务和 PubMedQA 数据集。研究表明,LLMs 可以有效地改善和多样化问题 - 答案对,从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战,并建议了解决这些限制的潜在研究方向,旨在创建更高效、更有能力的专门应用模型。
May, 2023
本论文提出 CONDA 方法以生成虚拟数据,并通过将结构放在 QA 对上并使用 QA 数据集来训练上下文生成器来进一步提高生成语言模型的能力,通过将下游任务转化为相同的问答格式并调整上下文生成器适应目标任务域,使用精调的生成语言模型生成相关上下文,这些上下文作为相应任务的虚拟训练数据,在多个分类数据集上进行实验,显示出在几乎零样本和少样本设置中的性能显着改进,分析表明要求高级推理能力的 QA 数据集(例如,抽象和常识 QA 数据集)在几乎零样本和少样本设置中都能显着改进性能。
May, 2022
通过结合提示方法和线性探针 fine-tuning 策略,我们提出了一种新颖的方法,可以有效提高生成模型和判别模型的泛化能力,特别在跨领域问题回答 (QA) 任务上表现优异。
May, 2023
语言模型在理解和生成自然语言和形式语言方面已经展示出了显著的能力。然而,它们与大规模知识库等真实环境的整合仍然是一个不发达的领域,影响着语义解析等应用,并导致 “幻觉” 信息的产生。本文是一项实验性研究,旨在揭示语言模型在知识库问答方面所遇到的鲁棒性挑战。研究覆盖了在训练和推理之间具有数据分布不一致的场景,例如对未见领域的泛化,适应各种语言变体,以及在不同数据集之间的可转移性。我们的综合实验揭示出,即使采用了我们提出的数据增强技术,先进的小型和大型语言模型在各个维度上表现出较差的性能。尽管语言模型是一项有前途的技术,但由于数据分布问题,目前形式的鲁棒性在处理复杂环境时是脆弱的且实用性有限。这要求未来在数据收集和语言模型学习范例方面进行进一步的研究。
Sep, 2023
我们提出了一种基于随机噪声生成器的简单而有效的数据增强方法,该方法可以扰动输入问题和上下文的单词嵌入,同时保持其语义不变,从而显著提高了 QA 模型的性能。在五个不同的目标域中,使用我们的词嵌入扰动训练的 QA 模型的表现明显优于基线 DA 方法和使用超过 240K 个人工生成 QA 问答对训练的模型。
May, 2021
本文研究了如何通过自动化数据增强和提出多种 QA 攻击来增强阅读理解模型的鲁棒性,同时提高其在源域、新领域和不同语言中的泛化性能。结果表明,采用学习的增强策略可以显著提高模型在各种领域和语言中的性能。
Apr, 2020
在问答模型的分布稳健性中,我们进行了一项大规模的实证评估,研究了超过 350 个模型和 16 个问答数据集的情况,发现在很多情况下,模型的变化并不影响稳健性,而在分布内性能单独决定着分布外的性能,并且我们的发现表明,零样本和上下文学习方法比完全微调的模型更能抵御分布变化,少样本提示微调模型表现出比少样本微调跨度预测模型更好的稳健性,而参数高效和稳健性增强的训练方法对稳健性没有显著的改进。
Oct, 2022
该研究探讨了半监督问答问题,在该问题中,利用无标签文本提高问答模型的性能,我们提出了一种新的训练框架,即生成领域自适应网络。该框架通过训练生成模型来生成基于无标签文本的问题,并将模型生成的问题与人类生成的问题相结合,用于训练问答模型。我们发展了基于强化学习的新领域适应算法,以减少模型生成数据分布与人生成数据分布之间的差异。实验结果表明,我们提出的框架可从无标签文本中获得显著的提高。
Feb, 2017
为了测试问题回答系统的泛化能力,我们建立了四个新的测试集,并发现存在一定适应性过度拟合。此外,我们在自然分布转移方面测试了模型,结果发现人类能力相比 SQuAD 模型有明显优势,同时强调需要采用能够考虑自然分布转移的评估指标。
Apr, 2020