基于 LLM 的习得函数的贝叶斯优化在自然语言偏好了解中的应用

May, 2024

基于 LLM 的习得函数的贝叶斯优化在自然语言偏好了解中的应用

Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation

David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner

TL;DR设计一个基于贝叶斯优化框架的自然语言查询方法，通过与用户进行对话来主动获取自然语言反馈，以减少对项目效用的不确定性，从而识别出最佳推荐。

Abstract

Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) constitute

preference elicitation conversational recommendation systems natural language bayesian optimization nl-pe dialogue

发现论文，激发创造

基于语言模型的贝叶斯偏好引导

将 AI 系统与用户的兴趣相协调需要理解和融入人类复杂的价值观和偏好。我们介绍了一个名为 OPEN 的框架，它利用贝叶斯最优实验设计（BOED）指导选择信息丰富的问题，并利用语言模型（LM）提取特征和将抽象的 BOED 查询转化为自然语言问题。通过将 LM 的灵活性与 BOED 的严谨性结合起来，OPEN 能够在保持适应性于现实世界领域的同时优化查询的信息量。用户研究中显示，OPEN 在偏好获取方面优于现有的基于 LM 和 BOED 的方法。

Mar, 2024

大型语言模型是具有竞争力的几乎是零启动推荐器，适用于基于语言和项目的偏好

传统的推荐系统利用用户对项目的偏好历史记录来推荐新内容，而现代对话界面则提供了一种基于语言偏好表达的基本不同模式。本文研究了大型语言模型 (LLM) 的提示范式在使用基于项目和语言偏好的推荐中与最先进的基于项目的协同过滤 (CF) 方法相比的应用。通过收集既包含基于项目偏好又包含基于语言偏好的新数据集，以及用户对多种（有偏见的）推荐项目和（无偏见的）随机项目的评分，支持了这一调查。在众多实验结果中，我们发现对于纯语言偏好（无项目偏好）的情况，LLM 在近乎冷启动的情况下与基于项目的 CF 方法相比提供了有竞争力的推荐性能，尽管其在这个特定任务上没有进行监督训练（零射击）或只有少数标签（少射击）。这一点尤其令人鼓舞，因为基于语言偏好的表示比基于项目或基于向量的表示更加可解释和可审查。

Jul, 2023

大型语言模型中的深度贝叶斯主动学习偏好建模

通过提出一种新的随机获取策略，该模型可以在多种设置中以比以前的贝叶斯随机获取策略更少的偏好标签的情况下，在人类喜好数据集中获得 33% 至 68% 的偏好标签。

Jun, 2024

加强多模式大型语言模型的启动式优化偏好

通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式，我们提出了一种能够有效抑制预训练 LLM 偏见、提升对视觉输入的基础性的方法 ——Bootstrap Preference Optimization (BPO)，通过构建偏好数据集并进行偏好学习来解决该偏见问题。广泛的实验表明，在多个基准测试中，我们的方法显著提升了性能，推动了多模态会话系统的发展。

Mar, 2024

基于贝叶斯方法对齐语言模型与人类偏好

本文提出了一种新颖的方法，名为 d-PM，采用贝叶斯框架来考虑人类偏好之间的分歧分布，并利用 d-PM 模型的偏好分数使用对比学习策略来训练自然语言生成模型，实验证明该方法在自动评估和人工评估方面一直优于之前的最佳模型。

Oct, 2023

克服 LLM 聊天机器人中误校准的对话先验

通过对聊天记录分析，发现查询的不明确性是常见的，据此，借助控制信息重校准预训练大型语言模型聊天机器人的回应策略，以改进其在推荐任务中的表现。

Jun, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

公平偏好引导改进人工对齐的大型语言模型判断

使用大型语言模型 (LLMs) 进行语言生成质量评估既具有成本效益又不需要参考样本表明其具有很大潜力。然而，LLMs 表现出偏好偏向和对提示设计敏感。在本研究中，我们发现即使在语义上等效的指示下，LLMs 的预测偏好可能非常脆弱和倾斜。因此，我们提出了一种自动的零 - shot 评估导向提示优化框架 ZEPO，旨在产生更公平的偏好决策并提高 LLM 评估器与人类判断的一致性。通过基于偏好决策公平性的零 - shot 学习目标，ZEPO 在代表性元评估基准上显示出显著的性能改进，无需标定数据。我们的发现强调了偏好公平性和人类一致性之间的关键关联，将 ZEPO 定位为弥合 LLM 评估器与人类判断之间差距的有效提示优化器。

Jun, 2024

基于语言模型和概率推理的主动偏好推断

通过使用一种熵减算法，我们提出了一种推理时算法，帮助大型语言模型快速推理用户偏好，并通过提问来优化期望熵和期望模型变化，从而使其在任务表现上胜过基线模型，在使用较少用户交互的情况下提升了性能。

Dec, 2023

GPT4Rec: 面向个性化推荐和用户兴趣解析的生成式框架

本文介绍了 GPT4Rec，一种基于生成模型和搜索引擎的新型灵活推荐系统，它通过多查询生成技术和基于 BM25 的搜索引擎来更好地捕获用户兴趣，提高推荐的相关性和多样性。

Apr, 2023