任务导向对话系统中用户满意度估计的因果评估

Mar, 2024

任务导向对话系统中用户满意度估计的因果评估

CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems

Amin Abolghasemi, Zhaochun Ren, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke...

TL;DR利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本，并通过人工注释验证，研究表明，与最先进的微调模型相比，开源的大型语言模型作为少样本的用户满意度评估器，在测试集中不满意标签数量的增加时表现出更高的鲁棒性。

Abstract

An important unexplored aspect in previous work on user satisfaction estimation for Task-Oriented Dialogue (TOD) systems is their evaluation in terms of robustness for the identification of user dissatisfaction: current benchmarks for →

user satisfaction estimation task-oriented dialogue (tod) systems robustness data augmentation counterfactual dialogues

发现论文，激发创造

基于任务导向对话系统用户满意度的模拟评估

通过提出用户满意度注释数据集，构建类人用户模拟器来衡量对话质量

May, 2021

使用大型语言模型进行任务导向对话评估的用户模拟

为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。

Sep, 2023

通过互动评估揭示任务导向对话中用户熟悉度偏见

通过交互用户研究，比较了符合系统边界的具体目标说明和不支持但更真实的目标说明两种用户情境下，任务导向型对话系统的漏洞和错误，发现了一种新的机器行为 —— 伪装，在强调透明度和回退策略的同时呼吁建立稳健的任务导向型对话系统。

May, 2023

使用因果推论模型改进开放领域对话评估

本文探索了预测针对开放领域对话的专家和用户评分的自动化方法，比较了四种不同的方法，其中提出的 counterfactual-LSTM (CF-LSTM) 模型在对话评分和分类方面的表现最好。

Jan, 2023

大规模语言模型中可解释的对话系统用户满意度评估

使用迭代提示框架和标记示例的监督下，通过学习得到的评分标准，文中提出了一种更高准确率且更易解释的用户满意度估计方法 ——SPUR，并证明了 LLMs 在从自然语言表达中更有效地提取用户满意度信号。

Mar, 2024

释放用户反馈潜力：利用大型语言模型作为用户模拟器来增强对话系统

采用 User-Guided Response Optimization 来结合 LLMs 和较小的 TOD 模型并利用 LLMs 生成用户模拟反馈来优化 TOD 模型，实验结果表明我们的方法优于现有最佳方法。

Jun, 2023

基于可靠 LLM 的任务导向对话系统用户模拟器

DAUS 是一种基于大型语言模型的领域感知用户模拟器，通过在真实的面向任务对话示例上进行微调，显著提高用户目标的实现，并有效减少模拟器回应中的不一致性来源。

Feb, 2024

重新思考对话系统的评估：用户反馈对众包工作者和 LLM 的影响

该研究关注用户反馈在评估面向任务型对话系统时的作用，研究发现用户反馈会影响系统评估结果，对于众包工作者而言，用户反馈对有用性和趣味性的评估更具影响力，而对大型语言模型来说，则更看重趣味性和相关性的评估，用户反馈也有助于提高众包工作者在模糊或复杂用户需求下的一致性，这些发现强调了用户反馈在优化系统评估方面的重要性，并提出了将自动化反馈整合到未来研究中的潜力。

Apr, 2024

自监督对比学习：面向对话代理的高效用户满意度预测

该研究开发了一种利用自监督对比学习和少样本迁移学习的方法，能显著减少标注数目，并提高面向未知领域技能的泛化性能。

Oct, 2020

使用双向 LSTM 提高互动质量估计及其对对话策略学习的影响

该篇研究基于用户满意度设计了奖励信号用于针对统计口语对话系统中适当和良好表现的对话行为，并使用新的满意度估计模型，在多个领域应用该模型，表现出更高的用户满意度估计，相似的任务成功率和更高的抗噪声性能。

Jan, 2020