多领域对话中的联合转向和对话级别用户满意度估计

EMNLPOct, 2020

多领域对话中的联合转向和对话级别用户满意度估计

Joint Turn and Dialogue level User Satisfaction Estimation on Multi-Domain Conversations

Praveen Kumar Bodigutla, Aditya Tiwari, Josep Valls Vargas, Lazaros Polymenakos, Spyros Matsoukas

TL;DR提出了一种新颖的用户满意度估计方法，它可通过 BiLSTM 深度神经网络模型共同预测专家提供的转化级别响应质量标签和最终用户提供的显式对话级别评分，并自动权衡每个操作对估计对话级别评分的贡献，隐式编码时间依赖关系，无需手工制作特征。在 28 个 Alexa 领域、两个对话系统和三个用户组的对话中，综合对话级满意度估计模型比基准深度神经网络和梯度提升回归模型在线性相关性能上实现了最高达 27%（0.43->0.70）和 7%（0.63->0.70）的提升。

Abstract

dialogue level quality estimation is vital for optimizing data driven dialogue management. Current automated methods to estimate turn and dialogue level user satisfaction employ hand-crafted features and rely on

dialogue level quality estimation automated methods user satisfaction estimation deep neural net model temporal dependencies

发现论文，激发创造

通过用户满意度估计进行多域会话质量评估

本文提出了一种新的基于响应质量注释方法的自动化指标，通过引入五个新的与领域无关的特性集，实现了在单轮和对话层面上估计用户满意度的机器学习模型，并取得了较高的预测表现。

Nov, 2019

基于用户满意度评估的领域无关的对话质量评估

该研究提出了一种新的 Response Quality 标注方案，基于此开发了一种新的以轮为单位的用户满意度量。使用五个新的与领域无关的特征集和六种机器学习模型来估算新的满意度量，方法显著提高了模型性能和泛化能力。

Aug, 2019

使用双向 LSTM 提高互动质量估计及其对对话策略学习的影响

该篇研究基于用户满意度设计了奖励信号用于针对统计口语对话系统中适当和良好表现的对话行为，并使用新的满意度估计模型，在多个领域应用该模型，表现出更高的用户满意度估计，相似的任务成功率和更高的抗噪声性能。

Jan, 2020

使用因果推论模型改进开放领域对话评估

本文探索了预测针对开放领域对话的专家和用户评分的自动化方法，比较了四种不同的方法，其中提出的 counterfactual-LSTM (CF-LSTM) 模型在对话评分和分类方面的表现最好。

Jan, 2023

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

自监督对比学习：面向对话代理的高效用户满意度预测

该研究开发了一种利用自监督对比学习和少样本迁移学习的方法，能显著减少标注数目，并提高面向未知领域技能的泛化性能。

Oct, 2020

朝向更准确、更具普适性的任务驱动式对话评测指标

通过使用 Dialog Quality Annotation（DQA）工作流程，对整个对话进行评估和标注，我们展示出使用有监督的模型进行对话质量估计的效果较纯粹基于整合对话层次特征的方法更好，同时建议使用高质量的人工注释数据是评估大型工业规模语音助手平台交互质量的重要组成部分。

Jun, 2023

任务导向对话系统中用户满意度估计的因果评估

利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本，并通过人工注释验证，研究表明，与最先进的微调模型相比，开源的大型语言模型作为少样本的用户满意度评估器，在测试集中不满意标签数量的增加时表现出更高的鲁棒性。

Mar, 2024

基于任务导向对话系统用户满意度的模拟评估

通过提出用户满意度注释数据集，构建类人用户模拟器来衡量对话质量

May, 2021

多轮对话数据的三级联合自然语言理解

我们提出了一种新颖的三级联合自然语言理解方法，加入了领域信息，并在所有级别之间体现了语义信息的交换，从而使得我们的模型在多轮数据集上的单词级别的意图检测和插槽填充方面优于现有的联合模型，并且通过分析我们得出，包含领域信息可以提高模型的性能。

May, 2023