May, 2022

对话修复:将文档转化为对话

TL;DR提出一种通过生成 dialog 数据来解决 ConvQA 系统缺乏训练数据的问题的技术 --dialog inpainting,并将其应用于来自维基百科和互联网的篇章中,生成了两个数据集:WikiDialog 和 WebDialog,共 19m 条对话数据,相对于现有数据集增加了 1000 倍,进而预训练 ConvQA 检索系统,在三个基准测试中(QReCC,OR-QuAC,TREC CAsT)实现了显著提升,最高可达 40%。