本文研究了几乎无监督的多项选择题回答(MCQA)的可能性,从非常基本的知识开始,MCQA 模型知道某些选择的正确概率比其他选择更高,提出的方法在 RACE 上胜过基准方法,并且与一些监督学习方法在 MC500 上相当。
Oct, 2020
本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型,这种方法已经在 SQuAD v1 数据集上验证,并且相较于过去的监督学习方法取得更好的表现。
Jun, 2019
本文提出了一种新颖的基于语义的问题回答方法 (SEQA),该方法使用生成模型先产生一组可能的答案,然后基于这些可能的答案和问题在语义上的相似性来选择正确的答案。该方法在无监督的情况下,通过对四个基准数据集的实验验证了其有效性和健壮性,并取得了最佳结果。
May, 2021
本文提出了一种新的方法合成用于 CQA 的数据,其中包括开放式,封闭式和无法回答的问题,通过为每种问题类型设计不同的生成流程并将它们有效地结合在单个共享框架中,同时设计了分层回答分类模块,提高了合成数据的质量,手动检查发现我们的框架生成的合成数据具有非常类似于人类生成的对话的特征,在四个领域中,使用我们的合成数据训练的 CQA 系统的表现确实接近于使用人工注释数据训练的系统。
Oct, 2022
提出了一种新的无监督方法,名为 DiverseQA,用于构建数据,培训 QA 模型。该方法包括数据构建、数据增强和去噪滤波三个模块,具有更广泛的答案类型,可应用于多种基准数据集。
Aug, 2022
本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法,并通过对三个不同领域数据集的实验验证了其有效性。
Apr, 2018
我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
该论文介绍了一种基于文本生成模型的、通过生成提示信息来提高多项选择题的准确性的算法 GenMC,该算法在多项选择题上的表现优于传统文本生成模型。
Apr, 2022
本文提出一种多选题智能生成系统,利用预训练的语言模型,根据规定的性能指标,通过读取理解语料库来生成语法准确,具有可回答性、多样性和复杂性的问题及选项。
Sep, 2022
通过集中于围绕问题上下文的改述,我们的工作提供了一种高数据获取成本情景下进行多项选择题生成的初始尝试,这是通过使用仅预训练模型构成的 pipeline AGenT Zero,该方法不需要 fine-tuning,最大限度地减少了问题生成的数据获取成本。同时,我们的评估流程还可推广到更广泛的问题和答案范围内。
Nov, 2020