关键词reinforcement learning from human feedback
搜索结果 - 109
- LLM 批评家助力捕捉 LLM 漏洞
人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制,本研究训练了 “评论家” 模型,帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型,用于指出真实世界助手任务中代码中的 - PopAlign: 公平文本到图像生成的人口层次对齐
使用 PopAlign 方法对文本到图像模型进行优化,以消除训练数据中的偏见,并保持良好的生成质量。
- 直接对齐中的平均对数似然
为了更好地将大型语言模型与人类判断相一致,本研究通过从人类反馈中学习奖励模型,然后使用规则化强化学习进行优化。最近,引入了直接对齐方法,通过从偏好数据集中学习一个经过调优的模型,而无需计算代理奖励函数。然而,这些方法建立在包含对训练模型中( - ARES:交替强化学习和监督微调,通过多样化的 AI 反馈提升多模态链式思维推理
大型多模型 (LMMs) 在理解人类指令方面表现出色,并在各种任务中展现出显著的结果。通过强化学习来自人类反馈 (RLHF) 和人工智能反馈 (RLAIF) 进一步完善了 LLMs,通过将其与特定偏好对齐。我们提出了一种两阶段算法 AREA - 为奖励建模实现全面偏好数据收集
通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调,从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型,在推理阶段通过对偏好数据进行训练并输出标量奖励。然而,对于偏好数据的收集仍缺乏详细的调查。最近的研究表明,偏好数据 - SAIL:大型语言模型的自我改进高效在线对齐
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数 - ReaLHF:通过参数重分配优化大型语言模型的 RLHF 训练
基于参数重新分配的强化学习来自人类反馈(RLHF)是在大型语言模型(LLM)应用中的一个关键技术。为了克服直接采用监督训练的并行化技术可能导致次优性能的限制,我们提出了一种名为参数分配的新方法,在训练过程中动态重新分配 LLM 参数并适应并 - 通过两人博弈实现最佳 LLM 对齐
通过两个代理人之间的迭代互动,通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应,本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡,并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人,而且 - 数学推理的步骤级价值优化
我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐 - 奖励和策略模型在强化学习中的无缝衔接探讨
借助强化学习从人类反馈中进行训练,通过训练策略模型和奖励模型来使语言模型与人类偏好相一致;我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念,探索了其对性能的影响,并引入了自动度量标准 SEAM 来度量两者之间的无缝度。实 - 对基于单词奖励引导的文本生成进行批判性研究
大型语言模型(LLMs)可以通过人类喜好的对齐显著提高,即所谓的来自人类反馈的强化学习(RLHF)。然而,对于许多用户而言,微调 LLM 的成本是不可接受的。最近提出的逐标记奖励引导的文本生成(RGTG)方法可绕过 LLM 微调,它们使用在 - 自博弈对抗评论家:可证明和可扩展的离线对齐语言模型
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规 - 直接对齐算法中奖励模型过度优化的尺度规律
通过大量实证实验,本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化,并探讨了在目标、训练方式和模型规模等方面的相关影响。
- 缓解奖励过度优化的可扩展集成方法
使用共享编码器但独立的线性头部,以减小存储和训练时间开销,解决了语言模型在强化学习中的过度优化问题。
- 学习澄清:基于行动对比自我训练的多轮对话
Action-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversat - 语言模型的直接对齐通过质量感知的自我优化
利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其 - 指令 CP:将大型语言模型快速转换为目标语言
通过 Instruction Continual Pre-training (InsCP) 的方法,可以在维持对话能力的同时,将大型语言模型(LLMs)调整为适应其他语言,从而避免对有害内容过滤的能力下降,且只需要 0.1 十亿个高质量的指 - 自我探索的语言模型:在线对齐的主动偏好引导
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
- 在线合并优化器用于提升回报和降低税额的对齐
通过在线合并优化器,在人类反馈强化学习中持续调节训练方向,实现大语言模型的高性能表现和对齐奖励的显著提升,同时减小对齐成本。
- 通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答
利用人类反馈强化学习从大型语言模型出发,以解决编码社区问答中多个答案和用户偏好差异的问题,提出了一种名为 ALMupQA 的框架,通过多角度用户偏好排序反馈来生成面向用户的答案。实验证明,ALMupQA 相比基础模型在 BLEU 指标上提升