段落级问题生成的生成式语言模型
Question generation is a natural language generation task that can be achieved with a single Transformer-based unidirectional language model, which outperforms QG baselines and produces high-quality questions that are relevant to their context paragraph and easy to answer, utilizing transfer learning without relying on auxiliary data.
May, 2020
本文介绍了一种多语言的问答生成模型 AutoQG 及其 Python 包 lmqg,模型基于预训练的 encoder-decoder 语言模型,在 8 种语言上 fine-tune,并提供了一个 web 界面和易于使用的代码,方便从业者使用和定制。
May, 2023
研究了如何使用在次语言上的问题生成数据集来学习主要语言的问题生成模型,提出了一种跨语言问题生成模型的联合训练方法,使用 Hindi 和中文两种主要语言的数据集进行实验,获得了理想的效果,并创建并发布了一个新的 Hindi 问答数据集。
Jun, 2019
提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个(伪)参考答案进行评估,以更全面地评估 QG 技术潜力的方法。实验结果表明,使用多个参考答案进行 QG 评估比使用单个参考答案更为有效,并且更能与人类评估相符合。
May, 2023
本研究开发了一个基于语言模型的教育问题生成模型,通过在科学文本和科学问题数据上进行进一步的预训练和微调,能够生成优质的教育问题,从而在自我评估和在线教育方面具有重要的应用潜力。
May, 2023
本文介绍了使用现代神经模型进行问答系统和问生成任务的最新研究成果,并首次将其用于芬兰语语言处理任务,通过自动翻译 SQuAD 数据集并使用规范化方法减少问题数据,我们成功训练出了一系列的 transformer-based 模型,实现了问答系统和问生成任务,是芬兰语 QA/QG 资源研究的首次尝试,同时为芬兰语问答领域确立了初步基准。
Nov, 2022
本文介绍了 GenQA 方法,将其扩展到跨语言环境下的 GenTyDiQA,并通过利用多种语言的段落设计了一个跨语言生成模型,优于所有 5 种语言的答案选择基线和 3 种中文的生成管道。
Oct, 2021
本文介绍了 ParaQG, 一种基于序列到序列技术的 Web 服务,通过交互式界面,从句子和段落中生成问题,并利用多种分组和过滤技术使生成问题的过程用户友好化。
Sep, 2019
该研究使用多问题生成模型 (mQG) 从给定的上下文生成多样且可回答的问题,并通过 SQuAD2.0 fine-tuned 模型验证问题的可回答性,该模型在 FairytaleQA 数据集上训练和评估,并在 TellMeWhy 和 SQuAD1.1 数据集上进行了零 - shot 适应,显示出与强基线方法相比有希望的结果。
Oct, 2023
本文旨在建立三种不同的 QAG 方法的基线,利用序列到序列语言模型进行微调。实验证明,一种端到端的 QAG 模型,它在训练和推理时计算量都很轻,通常是稳健的,并且胜过其他复杂的方法。然而,这取决于底层生成模型的不同。最后,我们的分析表明,仅基于生成的问答对微调的 QA 模型可以与人类标注数据上训练的监督 QA 模型具有竞争力。
May, 2023