本文介绍了 DialoGLUE,一种公共基准,旨在鼓励对话研究的表示转移,领域自适应和样本有效任务学习。通过 DialoGLUE 基准,基线方法和评估脚本,我们希望促进发展更为通用的任务导向型对话模型。
Sep, 2020
为了最大限度地提高面向任务的对话系统的实用性,该论文引入了 RADDLE 基准,该基准是一个语料库和工具的集合,用于评估模型在不同领域的性能。通过包括训练数据有限的任务,RADDLE 旨在鼓励具有强大泛化能力的模型。通过现有模型的评估,发现它们在鲁棒性评估方面不尽如人意,这提示了未来的改进机会。
Dec, 2020
任务驱动的对话系统使用外部非结构化知识源来扩展任务领域API的覆盖范围,三个任务包括知识寻找、选择和响应生成,并用集成方法和大规模预训练语言模型取得了高性能。
Jan, 2021
通过我们的工具包 CheckDST,我们进行了标准化和全面的 DST 诊断,发现了不同类别的 DST 模型具有明显的优势和劣势,生成模型更适用于语言多样性,而基于跨度分类的模型对不可见实体更具鲁棒性,我们还发现了各个模型的失败模式,并通过预微调过程改善了生成模型的分布偏差问题。
Dec, 2021
本文介绍了我们在第十届对话系统技术挑战赛第二轨知识引导的任务导向对话建模中的提交内容。在适应ASR转录的噪声方面探索不同的方法来使得模型更加健壮,并采用噪声通道模型来适应口语交流的风格。我们的最佳系统在挑战的自动和人工评估中分别排名第一和第三。
本文提出了一种新的任务定向对话数据增强方法TOD-DA,它包括对话丰富和口语会话模拟器,可以增加大规模高质量带注释口语会话,以提高口语任务定向对话建模的鲁棒性。在DSTC10 Track2的两项任务中,我们的方法均排名第一,证明了TOD-DA的优越性和有效性。
本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距,我们采用了大量数据扩增策略,包括人工误差注入和文本转语音转换。我们改良了预训练语言模型,并对每个子任务应用了集成算法,以训练稳健的口头对话模型。我们的方法在官方评估中排名第三,在最终的正式人类评估中排名第二。
Mar, 2022
本文旨在构建一个具有鲁棒性的口语对话系统,通过引入未结构化的外部知识和采用数据构建、加权负采样、后训练以及风格转换等四种高级方法,完成了DSTC10-Track2-Task2的任务,实验表明我们的模型在客观评估中排名第7,人工评估中排名第6。
Sep, 2022
本论文介绍了 SpokenWOZ,它是一个大规模的语音 - 文本对话数据集,旨在解决现有数据集无法满足实际口语对话场景的缺点。我们发现,当前的模型在跨话轮槽和语音语言现象的推理上仍有很大的改进空间,包括 ChatGPT。
May, 2023
使用LLM(Large Pre-Trained Language Models)评估了在口语任务导向对话中的性能,结果表明LLMs默认情况下对口头噪音不够鲁棒,但在正确的口头TOD数据集上进行微调/训练可以获得更强的性能。
Jan, 2024