领域无关问答数据扩充及采样技术探究

Dec, 2019

领域无关问答数据扩充及采样技术探究

An Exploration of Data Augmentation and Sampling Techniques for Domain-Agnostic Question Answering

Shayne Longpre, Yi Lu, Zhucheng Tu, Chris DuBois

TL;DR研究提出了一个不依赖于特定领域的问答模型，并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效，即使它通常用于包括无法回答的问题（如 SQuAD 2.0）的数据集。当与域内采样结合应用时，基于 XLNet（Yang 等人，2019）的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。

Abstract

To produce a domain-agnostic question answering model for the Machine Reading question answering (mrqa) 2019 Shared Task, we investigate t

question answering mrqa pre-trained language models data sampling back-translation

发现论文，激发创造

ZusammenQA：专用模型数据增强的跨语言开放检索问答系统

该论文提出了一种用于 COQA 多语言问题解答的系统，该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究，并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。

May, 2022

跨域问答泛化学习

通过结合提示方法和线性探针 fine-tuning 策略，我们提出了一种新颖的方法，可以有效提高生成模型和判别模型的泛化能力，特别在跨领域问题回答 (QA) 任务上表现优异。

May, 2023

零样本跨语言问答的合成数据增强

本研究提出了一种方法来改善跨语言问答的表现，利用问答生成模型以跨语言的方式生成合成数据，无需额外标注数据，并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型，创造了新的最优性能水平。

Oct, 2020

数据增强和理性训练法实现跨语言句子选择

该论文提出了一种跨语言句子选择的方法，旨在使用数据增强和负采样技术来直接学习基于嵌入的跨语言查询相关模型，结果显示该方法的效果不亚于或优于多个最先进的机器翻译 + 单语检索系统，该方法在英语 - 索马里语、英语 - 斯瓦希里语和英语 - 塔加洛语三种语言对中获得了一致的改进。

Jun, 2021

跨语言阅读理解的零样本多语言合成问答生成

使用单一生成模型在大规模上生成多语言问题和答案对，通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现，并在各种语言的 XQuAD 数据集上实现了较大的性能提升。

Oct, 2020

让人沮丧地简单的自然问答

文章研究了问题回答领域（Question Answering）中各种算法模型以及增强数据方法，提出了基于 Attention-over-Attention 等方法的组合以及数据增强和集成策略，可在 SQuAD 等基准数据集上取得超人的表现。但在最新的自然问题基准数据集上，相对简单的 BERT 迁移学习方法取得了超过先前表现最优系统 1.9 F1 点的优异表现，并且添加集成策略进一步提高了 2.3 F1 点。

Sep, 2019

XAIQA：用于提取式问答的基于解释器的数据增强

使用医疗记录自然可用的数据，XAIQA 通过分类模型解释器生成大规模的合成问答对，提升了 GPT-4 作为抽取式问答模型的性能。

Dec, 2023

使用翻译增强的多语言问答转移学习

本文探索了提高多语言问题回答的交叉语言转移性能的策略，包括使用机器翻译生成的数据来增强原始英语训练数据，以及提出两种新颖的策略：语言对抗性训练和语言仲裁框架，这些策略显著提高了零资源的交叉语言转移性能，并导致 LM 嵌入不那么语言特定的结果。经验证明，这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。

Dec, 2020

开放域问答中 BERT 微调的数据增强

本文介绍一种利用远程监督的数据增强技术来优化基于 passage retrieval 和 BERT 阅读器的问答模型的方法，通过迭代式的参数微调方法在多个数据集上进行实验，并在英文和中文数据集上取得了明显的提升。

Apr, 2019

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024