DialoGLUE:面向任务导向对话的自然语言理解基准
本文提出了 DialogBERT,这是一种新型的对话响应生成模型,通过使用分层Transformer架构和两个训练目标,包括掩码语调回归和分布式语调顺序排名来提高先前基于PLM的对话模型,在三个多轮对话数据集上进行实验证明,相比于BART和DialoGPT,DialogBERT在定量评估方面表现出色,并且在人类评估中证明,DialogBERT比基线模型生成的响应更连贯、信息量更大,并更加接近人类表现。
Dec, 2020
本研究提出一种利用信念状态注解进行对话增强的框架,能够在无需过多样本的情况下,显著提高DST模型和语言模型在新领域翻译任务中的表现,适用于n-shot训练场景。
Feb, 2021
本文介绍如何利用 DialoGPT 提供未标注的语料,作为无监督对话注释器,来对两个对话概括数据集 SAMSum 和 AMI 进行标注,使用 DialoGPT 进行标注取得了很显著的成果,并在 SAMSum 数据集上取得了新的最先进水平。
May, 2021
研究口语任务导向对话状态跟踪和基于知识的对话建模,提出使用已有数据集不足的问题,借助n-best语音识别假设,改善任务绩效,并说明现有模型在口语数据方面存在不足,研究结果呈现有利于基于语音的任务导向对话系统的基准测试数据集。
Sep, 2021
本文探讨了领域专业化预训练对任务定向对话的影响,并提出了一种领域适配器技术,通过构建和利用专门领域的资源,如DomainCC和DomainReddit来提高模型的任务性能。
Oct, 2021
本文旨在构建一种统一的会话基础模型,通过收集大规模多样化的对话数据集和引入自监督任务,提高该模型的稳定性。实验结果表明,与其他相同规模的模型相比,该模型在跨领域对话任务方面有着领先的表现。
May, 2022
DialogStudio是最大最多样化的对话数据集合,它包含了开放域对话、任务导向对话、自然语言理解、对话推荐、对话总结和知识为基础的对话。该数据集合不仅为对话研究和模型训练提供了丰富多样的资源,还提供了每个数据集的许可证并为选定的对话设计了领域感知的提示来促进指导感知的微调。此外,使用DialogStudio数据集合开发的对话AI模型在零样本学习和少样本学习的实验中展现出卓越的性能。访问此链接获取与DialogStudio相关的所有数据集、许可证、代码和模型,以提高透明度并支持数据集和任务基础的研究以及语言模型的预训练。
Jul, 2023
使用预训练语言模型和高质量标注的对话数据,最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上,对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此,为了解决这个问题,我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试,并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比,最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%,同时具有更少的参数。
Oct, 2023
这项研究介绍了KoDialogBench,一个用于评估语言模型在韩语会话中的能力的基准测试。实验结果表明,语言模型在会话技能方面仍有很大的改进空间,并且最近的训练技术在增强会话能力方面非常有效。
Feb, 2024
使用Small and Large Integrated for Dialogue Evaluation(SLIDE)框架,结合小型专门模型(SLM)和大型语言模型(LLMs)来解决开放领域对话系统中的一对多问题和领域特定场景下的性能不佳问题。该方法通过对比学习、语义敏感度度量和结合SLM和LLMs的评估结果等技术,实现了分类和评估任务的最新性能,并且SLIDE评估器与人工判断更好地相关。
May, 2024