不同个性化的协同 LML 构建

Jul, 2024

Orchestrating LLMs with Different Personalizations

Jin Peng Zhou, Katie Z Luo, Jingwen Gu, Jason Yuan, Kilian Q. Weinberger...

TL;DR这篇论文提出了一种新颖的方法，用于将大型语言模型（LLMs）与个人偏好进行匹配，有时被称为个性化人工反馈的强化学习（RLPHF）方法。通过合并多个专门训练在特定偏好维度上的专家 LLMs 的输出，使用黑盒方法在标记级别上生成文本，并通过训练轻量级偏好控制模型（PCM）动态地调整下一个标记的预测权重，从而优化给定的偏好。实证测试表明，该方法与现有的偏好合并技术相匹配甚至超过，提供了一种可扩展的、高效的用于个人化的 LLMs 微调的替代方法。

Abstract

This paper presents a novel approach to aligning large language models (LLMs) with individual human preferences, sometimes referred to as Reinforcement Learning from \textit{Personalized} Human Feedback (RLPHF). Given stated preferences along multiple dimensions, such as helpfulness, c

large language models reinforcement learning personalized human feedback alignment preference control model

发现论文，激发创造

个性化汤：通过事后参数合并实现个性化大型语言模型对齐

通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF)，通过多目标强化学习问题的建模，可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解，并在分布式环境中独立有效地进行训练，最后通过参数合并有效地实现多维度的个性化对齐。

Oct, 2023

个性化人类反馈的个性化语言建模

发展个性化语言模型的方法，结合用户模型和语言（或奖励）模型的学习目标，对个性化语言模型进行强化学习，以更好地满足用户偏好。

Feb, 2024

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

通过表示工程将大型语言模型与人类偏好对齐

以表征工程为灵感，通过人类反馈实现对大型语言模型（LLMs）中高层人类偏好的相关表征的识别，并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果，能够对齐各种人类偏好，显示了推进 LLM 性能的潜力。

Dec, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

LLM-Personalize: 通过强化自我训练使 LLM 规划器与人类偏好保持一致的家务机器人

通过优化流程，个性化 LLM 规划器以适应个体用户偏好，大幅提高与人类偏好的一致性。

Apr, 2024

个性化大型语言模型

该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用，结果表明，与非个性化模型相比，个性化调整能够提高模型的推理能力，并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升，这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。

Feb, 2024

PALR: 面向个性化的推荐学习模型

本文提出了一种名为 PALR 的新框架，旨在将用户历史行为与大型语言模型相结合，生成用户喜欢的商品。实验结果表明，与现有方法相比，我们的解决方案在各种连续推荐任务上表现优异。

May, 2023