守口如瓶:从人类反馈中减轻强化学习的长度偏差
人类反馈强化学习对大型语言模型的成功起到至关重要的作用,然而,它存在一些问题,如偏好中的冗长性。本研究通过研究 Direct Preference Optimization(DPO)中的长度问题,提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上,尽管 GPT4 评判者存在冗长偏见,但我们在控制长度的情况下获得了高达 20% 的胜率提升。
Mar, 2024
通过针对回应长度进行优化,研究表明强化学习从人类反馈中能够取得显著的改进,该研究还探索了其他方法以在不增加长度的情况下实现模型性能的提升,并发现了回应长度在奖励模型方面的相关性。
Oct, 2023
通过使用奖励模型和 Proximal Policy Optimization(PPO)来操控模型生成的输出 tokenizer 长度的新任务,实验证实 PPO 在操控输出 tokenizer 长度以及训练效果方面的有效性和发展潜力。
Aug, 2023
通过建立评估协议和使用共享特征表示的两个线性头部,训练模型以预测奖励,一个与长度相关,另一个与长度无关,从而更关注实际内容,以减少奖励与长度的相关性并显著提高策略的性能。
Feb, 2024
近年来,大型语言模型(LLMs)在自然语言处理和机器学习领域取得了显著的发展,其性能提升的一个关键因素是通过人类反馈实现与人类的对齐,同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差,并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案,即使质量相似。我们发现在我们的问题设置中,GPT-4 更倾向于提供更长的答案,我们提出了一种度量这种偏差的指标。
Oct, 2023
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过度优化或黑客攻击的影响,即所选择的回复之所以具有高奖励是因为奖励模型中存在错误,而不是真正的偏好。通过训练贝叶斯奖励模型,可以缓解这些问题,该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此,我们使用 Laplace-LoRA(Yang 等,2024 年)训练了贝叶斯奖励模型,并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。
Feb, 2024
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
该研究探讨了使用 Product of Experts 算法和 fine-tuning 策略在自然语言推理和事实验证基准测试上改善避免数据偏差的训练模型对于分布外 (out-of-distribution) 数据的效果。
Feb, 2023
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
我们的研究旨在通过使用静态学习的情感分类器评估奖励对积极情感生成的影响,并在机械翻译可解释性的视角下研究经过近端策略优化的预训练 GPT-2 模型。
May, 2024