从用户编辑中学习潜在偏好，使 LLM 代理人保持一致

Apr, 2024

从用户编辑中学习潜在偏好，使 LLM 代理人保持一致

Aligning LLM Agents by Learning Latent Preference from User Edits

Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra

TL;DR基于用户编辑的互动学习语言代理，通过历史编辑数据推断用户的潜在偏好，定义推动未来回复生成的提示策略，实现代理和用户偏好的对齐，减少用户编辑成本和提高性能。

Abstract

We study interactive learning of language agents based on user edits made to the agent's output. In a typical setting such as writing assi

interactive learning language agents user edits latent preference response generation

发现论文，激发创造

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

基于语言模型和概率推理的主动偏好推断

通过使用一种熵减算法，我们提出了一种推理时算法，帮助大型语言模型快速推理用户偏好，并通过提问来优化期望熵和期望模型变化，从而使其在任务表现上胜过基线模型，在使用较少用户交互的情况下提升了性能。

Dec, 2023

大型语言模型是否可以通过对抗方式改变用户偏好？

本研究从注意力探测、红队作战和白盒分析等多个角度，探讨预训练大型语言模型在用户喜好中的敌对行为，并针对 ChatGPT 和 GODEL 等对话模型提供红队样本，同时探究后者在非对抗性和对抗性环境下的注意力机制。

Jan, 2023

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

通过提问来检测用户意图的大型语言模型新对话生成代理

使用大型语言模型改进对话响应生成，并检测用户的隐含意图，通过提问问题与具体领域的知识库交互，获得额外知识，并显式地整合这些知识，最终提高了响应生成的性能。

Oct, 2023

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024

使用人类偏好进行语言模型预训练

通过在预训练中引入人类的反馈，实现对于语言模型的生成文本的可控和可导向性，减少哪些偏离人类喜好的内容的生成，并且在标准的预训练和任务特定的微调中保持下游任务表现。推荐在训练开始时，就结合人类反馈，不再使用模仿学习的方式预训练语言模型。

Feb, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023