Nov, 2023

对话生成器:基于上下文的、从文本资源中生成对话型问答数据集

TL;DR为了解决Conversational question answering (ConvQA)中的数据稀缺问题,我们提出了一种名为Dialogizer的新型框架,能够从文本源自动生成具有高上下文相关性的ConvQA数据集。框架中结合了两种训练任务:question-answer matching (QAM)和topic-aware dialog generation (TDG)。在推理阶段,基于生成的问题的上下文相关性进行重排。通过使用多个领域的文档作为主要来源,使用我们的框架,我们生成了四个ConvQA数据集。通过多样化指标的自动评估以及人工评估,我们验证了我们提出的框架相较于基线对话修复模型具有更高质量的数据集生成能力。