面向文档相关对话的数据集
doc2dial 是一种以文档为基础的目标导向的对话数据集,包含来自四个领域超过 480 个文档的约 4800 个带注释的对话,通过引入多重对话建模任务和基线方法来评估数据集的多功能性。
Nov, 2020
本文提出了一种基于 Transformer 的架构和增量式 Transformer 编码多轮言语和相关文档知识以及两阶段解码器(Deliberation Decoder)来提高上下文连贯性和知识正确性的新方法,实证研究表明,我们的模型生成的响应在上下文连贯性和知识相关性方面显著优于竞争基线。
Jul, 2019
本文针对神经网络模型生成内容不足的对话应用展开了研究,提出了一种全新的、基于数据和知识驱动的神经对话模型,该模型通过同时考虑历史对话和外部 “事实” 来生成更有用的回应,实验证明该方法在开放领域中具有广泛应用前景,相较于基线模型的 Seq2Seq 方法,能够显著提高输出的信息量。
Feb, 2017
本文介绍了 Doc2Bot,这是一种新型数据集,可用于构建通过会话帮助用户寻找信息的机器。我们提出了三个任务,包括对话状态跟踪,对话策略学习和响应生成,这些任务是具有挑战性且值得进一步研究的。
Oct, 2022
通过生成式对话网络自动生成对话数据训练社交对话代理,通过自动生成会话,可以在可用的语言和知识数据的广度中受益;对于不带知识的对话,GCN 可以从种子数据泛化,产生新颖但不太相关但更吸引人的对话,对于知识基础的对话,则可以产生更注重知识、流畅和引人入胜的对话。
Jul, 2022
本文介绍了 PhotoBook 数据集,该数据集是一个大规模的英语对话集合,旨在调查会话期间积累的共享对话历史。该数据集包含 2500 个对话,并建议了一个基于共同信息的基准模型,其结果表明共同信息对于解决后续描述至关重要,强调了需要开发对话交互中常用地基础的更复杂的模型。
Jun, 2019
本论文研究了基于图像的对话沟通的大型架构和数据集,利用现代状态下的图像和文本表征方式考虑不同的融合方式以实现机器人与人之间的对话,提出了 Image-Chat 数据集并通过自动指标和人类评估验证了模型的有效性以及其在现有基准测试中的表现,并得出最佳模型与人类表现相当的结论。
Nov, 2018
该研究提出了 MultiDoc2Dial,这是一个针对建模基于多个文档的目标导向对话的新任务和数据集,旨在为更真实的信息寻求对话场景提供支持,并介绍了一个新的包含来自四个不同领域的基于多个文档的对话的数据集,探索了其基于对话和文档的上下文表示,提供了强基线方法和各种实验结果,支持进一步的研究工作。
Sep, 2021
这篇实验研究分析了信息寻求对话中大型语言模型在分类明示或隐含对话转换以及预测对接知识元素方面的能力,并揭示了大型语言模型在这两个任务中遇到的挑战,讨论了通过流程架构和知识库改进大型语言模型的对话接地理解的研究工作,在对话中处理对接知识的复杂性方面,旨在开发更加有效的对话系统。
Jun, 2024