解决半监督问答中的语义漂泊问题

EMNLPSep, 2019

解决半监督问答中的语义漂泊问题

Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering

Shiyue Zhang, Mohit Bansal

TL;DR本研究提出了一种基于语义加强的奖励机制和基于 QA 的评估方法，用于解决问题生成中的语义漂移问题，并解决传统评价指标不足的问题，同时提出了两种合成 QA 对的方法，有效的用于半监督 QA 学习中。

Abstract

Text-based question generation (QG) aims at generating natural and relevant questions that can be answered by a given answer in some context. Existing QG models suffer from a "semantic drift" problem, i.e., the semantics of the model-generated question drifts away from the given contex

question generation semantic validity qa-based evaluation semi-supervised learning data augmentation

发现论文，激发创造

通过摘要信息生成问题提高无监督问答

本文提出一种基于无监督学习的问句生成方法，使用自由可得的新闻标题数据通过句法分析、命名实体识别和语义角色标注启发式技术转换成合适的问题，然后与原始新闻文章一起训练一个端到端的神经问句生成模型；通过在多项数据集上的实验证明，该方法生成的人工智能数据集用于训练问答模型，其性能远超过基于无监督学习的问答模型的现有成果。

Sep, 2021

评估问题生成需要更多参考文献

提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个（伪）参考答案进行评估，以更全面地评估 QG 技术潜力的方法。实验结果表明，使用多个参考答案进行 QG 评估比使用单个参考答案更为有效，并且更能与人类评估相符合。

May, 2023

问题生成是否可能减少问答模型的偏差？一个以问题 - 文本词汇重叠为例的研究

通过使用同义词替换的方法，该研究提出了一种简单但有效的数据增强方法，以缓解问题生成模型的生成偏差并改善阅读理解模型在低重叠词汇样本上的性能下降问题。

Sep, 2021

利用检索句子生成模板的方式提高无监督问答

我们提出了一种无监督训练 QA 模型的方法，该方法使用生成的伪数据训练，为 QA 训练生成问题，通过对相关检索到的句子应用简单模板，而非原始上下文句子来实现，从而使模型能够学习更复杂的上下文问题关系。使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14％的 F1 分数相对提高，并且在答案为命名实体时提高 20％，从而实现无监督 QA 的最新性能。

Apr, 2020

具有生成领域能力的领域自适应网络的半监督问答

该研究探讨了半监督问答问题，在该问题中，利用无标签文本提高问答模型的性能，我们提出了一种新的训练框架，即生成领域自适应网络。该框架通过训练生成模型来生成基于无标签文本的问题，并将模型生成的问题与人类生成的问题相结合，用于训练问答模型。我们发展了基于强化学习的新领域适应算法，以减少模型生成数据分布与人生成数据分布之间的差异。实验结果表明，我们提出的框架可从无标签文本中获得显著的提高。

Feb, 2017

响应增强的半监督对话查询生成

提出了一种半监督学习框架 SemiDQG，通过使用未标注的对话数据来改进模型性能，使用类似度选择策略选取高质量伪查询进一步训练模型，并采用 REINFORCE 算法作为精细化训练信号，实验结果表明该框架在跨领域和资源有限场景中具有显著优势。

Dec, 2023

基于 LM 的问答生成方法的实证比较

本文旨在建立三种不同的 QAG 方法的基线，利用序列到序列语言模型进行微调。实验证明，一种端到端的 QAG 模型，它在训练和推理时计算量都很轻，通常是稳健的，并且胜过其他复杂的方法。然而，这取决于底层生成模型的不同。最后，我们的分析表明，仅基于生成的问答对微调的 QA 模型可以与人类标注数据上训练的监督 QA 模型具有竞争力。

May, 2023

将问答与问题生成视为对偶任务

本论文针对问题回答和问题生成两个任务之间内在联系，提出一个联合训练框架，使用序列到序列模型和循环神经网络模型，通过概率相关性指导训练过程来提高两个任务的性能，实验证明该框架能够显著提高问题回答和问题生成两个任务的表现。

Jun, 2017

利用 Transformer 语言模型简化段落级问题生成

Question generation is a natural language generation task that can be achieved with a single Transformer-based unidirectional language model, which outperforms QG baselines and produces high-quality questions that are relevant to their context paragraph and easy to answer, utilizing transfer learning without relying on auxiliary data.

May, 2020

问题生成的合成上下文生成

通过使用大规模语言模型生成的合成上下文进行训练，研究表明，虚拟上下文在问句生成中具有类似实际上下文的效果，为未来该领域的进一步发展铺平了道路。

Jun, 2024