GTM:一种生成式三元模型用于对话问句生成
本文提出了一种名为ACS-QG的问题生成系统,使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题-答案对,该系统超越了现有神经网络问题生成模型,并能从较少的数据中生成280万个高质量的问题-答案对。
Jan, 2020
本研究关注对话式问题生成作为一种产生训练和评估目的的合成对话的手段,并设计了ChainCQG作为一种跨多个对话回合学习问题-答案表征的系统,显著优于SOTA基线并能够生成各种类型的问题。
Feb, 2021
探索生成通常由多个句子回答的开放性问题的任务,定义一个新的问题类型本体论、提出了一种新颖的基于问题类型感知的问题生成框架并使用语义图形表示,进一步利用示例和自动生成的模板来提高可控性和多样性。在两个新收集的大规模数据集上进行实验,表明我们的模型在自动评估指标上改善了问题质量。最后,我们的模型变体可以产生具有增强的可控性和多样性的问题。
Jul, 2021
本研究提出了一种名为CoHS-CQG的两阶段交谈问答生成框架,其中采用CoHS模块来缩短输入的上下文和历史,以优化对话对齐属性。该模型在CoQA的答案感知和答案不感知情况下均取得了最先进的性能。
Sep, 2022
本论文介绍了一种利用输入段落生成大规模对话问答数据集的新型框架,该框架从段落中提取值得询问的短语,根据先前的对话生成相应的问题,并在生成问题后修订所提取的答案,从而显著提高合成数据的质量。实验结果表明,我们的简单答案修订方法可以带来显著的改进,并且我们证明了我们的框架可以有效地用于对话问答的领域自适应。
Sep, 2022
通过引入QG-Bench,这是一个多语种,多域基准,对现有的问答数据集进行转换,提出了鲁棒的QG基准和基于精细调整的生成语言模型,并对其进行了有效性和适应性分析。
Oct, 2022
本文提出了一种新的方法合成用于CQA的数据,其中包括开放式,封闭式和无法回答的问题,通过为每种问题类型设计不同的生成流程并将它们有效地结合在单个共享框架中,同时设计了分层回答分类模块,提高了合成数据的质量,手动检查发现我们的框架生成的合成数据具有非常类似于人类生成的对话的特征,在四个领域中,使用我们的合成数据训练的CQA系统的表现确实接近于使用人工注释数据训练的系统。
Oct, 2022
SG-CQG是一个用于回答无答案设置下如何生成与要求自然的对话的方法,它通过语义图和具有明确控制信号的分类器来解决what-to-ask和how-to-ask的挑战。同时,提出了新的评估指标Conv-Distinct,并在实验中取得了最先进的表现。
May, 2023
本文旨在建立三种不同的QAG方法的基线,利用序列到序列语言模型进行微调。实验证明,一种端到端的QAG模型,它在训练和推理时计算量都很轻,通常是稳健的,并且胜过其他复杂的方法。然而,这取决于底层生成模型的不同。最后,我们的分析表明,仅基于生成的问答对微调的QA模型可以与人类标注数据上训练的监督QA模型具有竞争力。
May, 2023
近期关于口语问答方面的研究表明,最新的端到端模型在提问回答方面取得了显著的进展,尤其是在提取性问题的选择上。然而,先前的研究主要集中在提取性问题上,这种基于提取的方法在直接提取答案的情况下是有效的,但在涉及抽象问题且答案不可直接提取的情况下则存在不足。为了弥补这一差距,我们首次引入了第一个端到端生成式口语问答模型(GSQA),以增强系统的抽象推理能力。我们的GSQA模型训练的挑战在于缺乏口语抽象问答数据集。我们建议使用文本模型进行初始化,并利用基于提取的问答数据集将文本生成模型的知识转移到口语生成模型上。实验结果表明,我们的模型在基于提取的问答数据集上的性能超过了先前的提取性模型3%。此外,GSQA模型仅在口语提取性问答数据集上进行了微调。尽管没有见过任何口语抽象问答数据,它仍然能够与级联模型的性能高度匹配。总而言之,我们的GSQA模型展示了到广泛问题范围的泛化潜力,从而进一步扩展了抽象问答的口语问答能力。
Dec, 2023