行为对齐：评估基于 LLM 的对话推荐系统的新视角

SIGIRApr, 2024

行为对齐：评估基于 LLM 的对话推荐系统的新视角

Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommendation Systems

Dayu Yang, Fumian Chen, Hui Fang

TL;DR基于大型语言模型的对话式推荐系统在行为一致性方面存在差异，本研究提出了行为一致性评估指标 Behavior Alignment，该指标通过与人类推荐者进行对比能够更好地衡量系统性能，并且提出了一种基于分类的隐式测量方法来评估该指标的鲁棒性。

Abstract

large language models (LLMs) have demonstrated great potential in conversational recommender systems (CRS). However, the application of LLMs to CRS has exposed a notable discrepancy in behavior between LLM-based

large language models conversational recommender systems behavior alignment evaluation metric recommendation strategies

发现论文，激发创造

RecExplainer: 为推荐模型可解释性而对齐大型语言模型

使用大型语言模型作为替代模型，模仿和理解目标推荐系统模型的行为，利用三种对齐方法，即行为对齐、意图对齐和混合对齐，在语言和潜在空间进行对齐训练，从而实现了高度可信的推荐解释生成。

Nov, 2023

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

真实为贵：将大型语言模型与在线人类行为对齐

本文提出了一种对齐框架，名为人类行为强化学习（RLHB），通过直接利用真实的在线人类行为来对齐大型语言模型，并采用生成对抗框架训练生成器按照预期的人类行为进行回复，鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境，在自然语言形式的行为模型和多模型联合训练机制的支持下，实现了积极可持续的在线对齐。通过人工和自动评估，实验证实了本文方法的有效性。

May, 2024

在对话式推荐系统中利用大型语言模型

本文提出了一个使用大型语言模型的端到端大规模语音推荐系统，并介绍了一些技术和实现细节，包括用户偏好理解、灵活对话管理、基于 LLM 的用户仿真器等。

May, 2023

一种大型语言模型增强的对话式推荐系统

利用大型语言模型开发了一种新的会话式推荐系统（LLMCRS），能够有效管理子任务、解决不同的子任务、并生成与用户交互的响应，通过细化工作流程和使用强化学习的反馈优化，实验结果表明其性能超过现有方法。

Aug, 2023

当前基于 LLM 的对话推荐用户模拟器的局限性分析

使用大型语言模型构建用户仿真器在对话推荐系统中存在一些限制和评估方法上的问题，因此提出了 SimpleUserSim 方法通过简单策略指导话题以显著提高推荐结果。

Mar, 2024

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

语言模型驱动的对话式推荐系统中的意外偏差

本研究调查了语言模型 LMRec 在餐厅推荐中存在的偏见问题，发现与黑人社区相关的名称的习惯性提及显著降低了推荐餐厅的价格分布，而男性相关的普遍名称的提及则导致增加了推荐的酒类服务场所，这些结果表明了语言模型驱动的推荐系统 LMRec 在其推荐中强化了有害刻板印象。

Jan, 2022

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023