EventChat: 中小企业环境下基于大型语言模型的对话式推荐系统的实现与用户中心评估

Jul, 2024

EventChat: 中小企业环境下基于大型语言模型的对话式推荐系统的实现与用户中心评估

EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

HTML

PDF

Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim

TL;DR大型语言模型（LLMs）在会话推荐系统（CRS）的战略潜力方面取得了巨大进展，但迄今为止，研究主要集中在实施LLM驱动的CRS的技术框架上，而非最终用户评估或对企业的战略影响，特别是来自构成全球经济基础的中小企业（SME）的视角。在本文中，我们详细介绍了在SME环境中设计的LLM驱动的CRS的设计，并通过客观系统指标和主观用户评估在实地环境中评估了其性能。与此同时，我们还介绍了一个用于评估LLM驱动的CRS的简化版ResQue模型，以使其能够在快速发展的领域中得到复制。我们的结果从用户体验角度显示出良好的系统性能（85.5％的推荐准确性），但也凸显出挑战企业可行性的延迟，成本和质量问题。值得注意的是，每次互动的中位成本为0.04美元，延迟为5.7秒，成本效益和响应时间成为实现更加用户友好和经济可行的LLM驱动CRS在SME环境中至关重要的领域。这些成本的一个主要驱动因素是将先进的LLM作为在检索增强生成（RAG）技术中的排序器使用。我们的结果还表明，仅依赖于Prompt-based learning等方法作为底层LLM，使得在生产环境中难以实现令人满意的质量。我们概述了部署LLM驱动CRS的SME面临的战略考虑，特别考虑了当前技术环境中的权衡。

Abstract

large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to impl

发现论文，激发创造

对话式推荐系统的进展与挑战:综述

本文系统地回顾了当前对话式推荐系统（CRSs）的技术，总结了CRSs开发中的5个关键方向：基于问题的用户偏好获取、多轮对话推荐策略、对话理解和生成、开发利用折中和探索等方法的算法、以及CRSs的评估和用户模拟问题，并根据这些研究方向讨论了一些未来的挑战和机遇。

Jan, 2021

Chat-REC：面向可交互和可解释的LLMs增强型推荐系统

本文提出使用大型语言模型与 Chat-Rec 范例的对话推荐系统（CRS）来提高传统推荐系统的互动性与可解释性，并演示了其在学习用户喜好和在零样本评级预测任务的表现改进方面具有的有效性。

Mar, 2023

在对话式推荐系统中利用大型语言模型

本文提出了一个使用大型语言模型的端到端大规模语音推荐系统，并介绍了一些技术和实现细节，包括用户偏好理解、灵活对话管理、基于LLM的用户仿真器等。

May, 2023

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于LLM的用户模拟器的交互式评估方法iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解LLMs在CRSs中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

一种大型语言模型增强的对话式推荐系统

利用大型语言模型开发了一种新的会话式推荐系统（LLMCRS），能够有效管理子任务、解决不同的子任务、并生成与用户交互的响应，通过细化工作流程和使用强化学习的反馈优化，实验结果表明其性能超过现有方法。

Aug, 2023

一次对话胜过千言万语的推荐：综合对话推荐系统调查

综述了以结构化方式总结的综合对话推荐系统方法，并对真实应用场景中的对话推荐系统数据集和评估方法进行了详细分析，提出了目前综合对话推荐系统所面临的挑战和可能的未来趋势。

Sep, 2023

探究大型语言模型对推荐系统的影响：一次广泛的综述

大规模语言模型（LLMs）在重新塑造推荐系统中的重要性得到强调，将其价值归因于传统推荐系统中缺乏的独特推理能力。与缺乏直接用户交互数据的传统系统不同，LLMs 在推荐物品方面表现出卓越的熟练度，展示了其理解语言细微差别的能力，这标志着推荐领域的一个基本范式转变。在充满活力的研究领域中，研究人员积极利用LLMs的语言理解和生成能力重新定义推荐任务的基础。本文详细探讨了LLMs在推荐框架中的固有优势，包括细微的语境理解、在不同领域之间无缝切换、采用统一的方法、利用共享数据库的全面学习策略、透明的决策制定和迭代改进。尽管具有改变潜力，但仍存在挑战，包括对输入提示的敏感性、偶尔的误解以及意外的推荐，这需要对LLM驱动的推荐系统进行持续的完善和演进。

Feb, 2024

当前基于LLM的对话推荐用户模拟器的局限性分析

使用大型语言模型构建用户仿真器在对话推荐系统中存在一些限制和评估方法上的问题，因此提出了SimpleUserSim方法通过简单策略指导话题以显著提高推荐结果。

Mar, 2024

基于LLM的可控、可扩展、人参与的用户模拟器框架用于对话推荐系统

我们介绍了一种可控、可扩展和人工参与的用户模拟器框架 (CSHI)，通过插件管理器管理用户模拟器的行为，以提供更真实和令人信服的用户交互体验，并通过实验证明我们的框架能够适应各种对话推荐设置并有效地模拟用户的个性化偏好，从而促进对现有CRS研究的可靠评估和高质量对话推荐数据集的创建。

May, 2024

ChatGPT 基于对话推荐系统的用户体验导航：提示引导和推荐领域的影响

使用ChatGPT为基础的对话式推荐系统研究了Prompt Guidance（PG）和Recommendation Domain（RD）这两个因素对系统整体用户体验的影响，并发现PG可以大大提升系统的可解释性、适应性、感知易用性和透明度，而用户在书籍推荐领域相较于职位推荐领域更倾向于感知到新颖性，并展现更高的从事和尝试推荐项目的倾向。此外，PG对某些用户体验度量和交互行为的影响似乎受到推荐领域的调节，这也证明了这两个因素之间的交互效应。该研究为基于ChatGPT的用户中心评估的对话式推荐系统提供了实用的设计指导。

May, 2024