通过用户模拟评估对话式推荐系统

KDDJun, 2020

通过用户模拟评估对话式推荐系统

Evaluating Conversational Recommender Systems via User Simulation

Shuo Zhang, Krisztian Balog

TL;DR本文提出一种通过用户模拟来替代人类评估的方法，以实现对话推荐系统的自动评估。作者表明，通过考虑用户的个人喜好和与系统的一般交互流程，偏好建模和特定任务交互模型都有助于实现高度自动化的绩效评估结果和人工人工评估的高度相关性。

Abstract

conversational information access is an emerging research area. Currently, human evaluation is used for end-to-end system evaluation, which is both very time and resource intensive at scale, and thus becomes a bottleneck of progress. As an alternative, we propose →

conversational information access automated evaluation user simulator conversation recommender systems preference modeling

发现论文，激发创造

评估信息获取系统的用户模拟

本书系统地回顾了用户模拟的研究进展，包括为设计用户模拟器制定的一般框架、利用用户模拟进行评估的模型和算法，以及用于搜索引擎、推荐系统和对话助手的用户交互模拟，并讨论了重要的未来研究方向。

Jun, 2023

评估大型语言模型作为生成式用户模拟器用于对话推荐

通过五项任务评估语言模型在对话推荐中模拟人类行为的效果，研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异，并提供了模型选择和提示策略的见解。

Mar, 2024

当前基于 LLM 的对话推荐用户模拟器的局限性分析

使用大型语言模型构建用户仿真器在对话推荐系统中存在一些限制和评估方法上的问题，因此提出了 SimpleUserSim 方法通过简单策略指导话题以显著提高推荐结果。

Mar, 2024

对话式推荐系统的进展与挑战：综述

本文系统地回顾了当前对话式推荐系统（CRSs）的技术，总结了 CRSs 开发中的 5 个关键方向：基于问题的用户偏好获取、多轮对话推荐策略、对话理解和生成、开发利用折中和探索等方法的算法、以及 CRSs 的评估和用户模拟问题，并根据这些研究方向讨论了一些未来的挑战和机遇。

Jan, 2021

基于任务导向对话系统用户满意度的模拟评估

通过提出用户满意度注释数据集，构建类人用户模拟器来衡量对话质量

May, 2021

INFACT: 一种用于对话推荐的在线人类评估框架

本文讨论了对话式推荐系统的评估方法，指出当前主要依赖离线计算度量方式可能存在不足，建议结合人类主观感受开展模型评价，以提高模型性能的准确性和有效性。

Sep, 2022

对话式推荐系统调查

本文详细调查了面向会话的推荐技术现有的方法，将这些方法按支持的用户意向或背景知识等维度分类，同时讨论了技术方法、CRS 的评估，以及未来需要更多研究的领域。

Apr, 2020

任务完成对话用户模拟器

该研究论文介绍了用于电影预订领域的用户模拟器，它利用规则和收集到的数据，并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较，论文提出了一种新的模拟框架，展示了多个代理的思路，并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。

Dec, 2016

会话式推荐系统

本文提出将对话系统和推荐系统结合到一起，基于深度强化学习框架构建个性化的对话推荐代理以优化每个会话的效用函数。

Jun, 2018

如何构建用户模拟器以训练基于强化学习的对话系统

我们提出一种标准化用户模拟器构建的方法，用于评估对话系统质量。我们使用不同的对话规划和生成方法训练六个用户模拟器，并计算一组自动指标来评估这些模拟器的质量。此外，通过让人类用户评估模拟器并与训练系统交互，间接地和直接地评估了这些模拟器。本文提供了一个全面的用户模拟器研究评估框架，并更好地理解了不同用户模拟器的优缺点及其对训练系统的影响。

Sep, 2019