监督微调作为逆强化学习
利用高质量的演示数据,我们提出了一种名为 AfD 的新方法,通过在顺序决策框架中形式化 AfD,解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战,我们通过引入分歧最小化目标来解决 AfD 独特的缺失奖励信号的问题,并提出了一个在定制奖励模型上超出的计算效率算法,通过在 Harmless 和 Helpful 任务上的实验证明了我们的关键见解,展示了其强大的经验性能,并保持了简洁性。
May, 2024
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024
大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略,称为从 AI 反馈中的强化学习,通过提供详细的视频描述来丰富视频内容的理解,以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基准测试中表现出卓越的性能,超过了现有的方法,包括 SFT 模型。我们致力于开源我们的代码、模型和数据集,以促进该领域的进一步研究。
Feb, 2024
通过使用增强学习直接生成基础指令数据集,TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力,减少人为参与需求、模型查询次数以及提高模型隐私保护能力。
Mar, 2024
通过对 fine-tuning 技术的分析,我们发现使用 on-policy sampling 或负梯度的方法通常优于离线和最大似然目标,我们将这些方法统一归为对分类分布的寻找模式的目标方法,该方法能够更有效地在分类分布的不同区间进行概率分布的重新定位。我们的分析为 LLM 的 preference fine-tuning 提供了可操作性的见解,并指导了如何收集数据以实现最大改进。
Apr, 2024
通过整合自评和倒带机制,本研究发现未对齐的大型语言模型(LLMs)可以通过自我增强直接生成与人类偏好一致的回答。引入一种新的推理方法 Rewindable Auto-regressive INference(RAIN),允许预训练的 LLMs 评估自身生成,并利用评估结果对维护 AI 安全进行倒带回溯和前向生成,无需额外数据进行模型对齐,也无需训练、渐变计算或参数更新。实验证明 RAIN 的有效性,改善了 LLaMA 30B 模型的无害率,同时在对抗性攻击下降低了攻击成功率。
Sep, 2023
我们提出了一种名为 FIGA 的改进对齐方法,通过利用细粒度的质量信号,即对比好坏回答的方式,指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。
Nov, 2023