基于任务导向对话系统用户满意度的模拟评估

SIGIRMay, 2021

基于任务导向对话系统用户满意度的模拟评估

Simulating User Satisfaction for the Evaluation of Task-oriented Dialogue Systems

Weiwei Sun, Shuo Zhang, Krisztian Balog, Zhaochun Ren, Pengjie Ren...

TL;DR通过提出用户满意度注释数据集，构建类人用户模拟器来衡量对话质量

Abstract

Evaluation is crucial in the development process of task-oriented dialogue systems. As an evaluation method, user simulation allows us to tackle issues such as scalability and cost-efficiency, making it a viable choice for large-scale automatic evaluation. To help build a →

user simulation task-oriented dialogue systems human-like user simulator user satisfaction annotation dataset distributed representations

发现论文，激发创造

基于可靠 LLM 的任务导向对话系统用户模拟器

DAUS 是一种基于大型语言模型的领域感知用户模拟器，通过在真实的面向任务对话示例上进行微调，显著提高用户目标的实现，并有效减少模拟器回应中的不一致性来源。

Feb, 2024

通过用户模拟评估对话式推荐系统

本文提出一种通过用户模拟来替代人类评估的方法，以实现对话推荐系统的自动评估。作者表明，通过考虑用户的个人喜好和与系统的一般交互流程，偏好建模和特定任务交互模型都有助于实现高度自动化的绩效评估结果和人工人工评估的高度相关性。

Jun, 2020

任务完成对话用户模拟器

该研究论文介绍了用于电影预订领域的用户模拟器，它利用规则和收集到的数据，并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较，论文提出了一种新的模拟框架，展示了多个代理的思路，并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。

Dec, 2016

任务导向对话系统中用户满意度估计的因果评估

利用大型语言模型 (LLMs) 生成注重满意度的反事实对话以增加测试集中的原始对话样本，并通过人工注释验证，研究表明，与最先进的微调模型相比，开源的大型语言模型作为少样本的用户满意度评估器，在测试集中不满意标签数量的增加时表现出更高的鲁棒性。

Mar, 2024

用于评估面向任务对话系统的比喻用户模拟器

本文提出使用隐喻用户模拟器和基于测试者的评估框架对任务型对话系统进行评估，在三个数据集的实验中，隐喻用户模拟器在准确性上表现更好，并证明了框架的高效性和良好的泛化和可扩展性。

Apr, 2022

面向任务对话的用户建模

本论文提出一种基于神经网络的端到端用户仿真模型，用于对话系统的自动评估和训练，采用分层序列到序列模型，并利用隐变量模型引入随机变化，以提高仿真用户响应的多样性，并制定了目标正则化机制，以惩罚用户对初始用户目标的偏离。

Nov, 2018

基于架构指导的任务导向对话用户满意度建模

本文提出了一种基于预训练语言模型的新型模式指导的用户满意度建模框架 ——SG-USM，该框架可以明确地模拟任务架构，通过寻找任务属性的实现程度以及任务属性的重要性计算用户的满意度，实验结果表明，该方法在竞争对手方法中表现出色，可以提高用户满意度建模的可解释性，在应对新任务和利用无标签数据方面也具有很好的可扩展性。

May, 2023

基于序列化对话行为建模的目标导向会话系统用户满意度评估

本文提出了一种新的框架 USDA，采用分层 Transformer 编码整个对话上下文，并发展了两种 USDA 变体，以捕捉有监督或无监督方式的对话行为信息，在预测用户满意度时，结合了内容和行为特征的时序转换。在四个基准目标导向的对话数据集上的实验证明，所提出的方法在用户满意度估计方面显著且一致地优于现有方法，并验证了对话行为序列在 USE 中的重要作用。

Feb, 2022

使用大型语言模型进行任务导向对话评估的用户模拟

为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。

Sep, 2023

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021