May, 2022
对话修复: 将文档转化为对话
Dialog Inpainting: Turning Documents into Dialogs
TL;DR提出一种通过生成dialog数据来解决ConvQA系统缺乏训练数据的问题的技术--dialog inpainting,并将其应用于来自维基百科和互联网的篇章中,生成了两个数据集:WikiDialog和WebDialog,共19m条对话数据,相对于现有数据集增加了1000倍,进而预训练ConvQA检索系统,在三个基准测试中(QReCC,OR-QuAC,TREC CAsT)实现了显著提升,最高可达40%。