ppo | BriefGPT - AI 论文速递

关键词ppo

搜索结果 - 7

使用强化学习训练大型语言模型进行推理
从人类反馈中进行强化学习（RLHF）已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），
PDF4 months ago
基于代理模型的连续变动供应链建模
该研究探讨了在不同策略要求的环境中，代理人能否控制变化的供应链问题，避免长时间未见任务导致的灾难性遗忘，通过对比不同算法的性能发现，在不同程度的随机性环境中，将学习策略适用于连续变化的供应链情境中是不同的，并且具有记忆历史的算法在应对极端任
PDF6 months ago
通过 DreamerV3 技巧提高 Proximal Policy Optimization 的奖励尺度鲁棒性
基于模型方法 DreamerV3 的实验研究，揭示了 DreamerV3 的技巧在强化学习算法 PPO 中不适用的情况，同时还对技巧的实现方式及其对性能的影响进行了深入分析。
PDF8 months ago
ReMax: 一个用于对齐大型语言模型的简单、有效且高效的方法
通过观察，本研究发现强化学习领域的 PPO 算法存在计算效率低下的问题，并且基于这些观察，我们开发了一种名为 ReMax 的新算法，通过去除数值模型、简化实现以及减少超参数的方式提高了计算效率，并且在 GPT2 (137M) 模型上实现了
PDF9 months ago
近端策略优化的联合动作损失
本文提出了一种计算每个子动作损失的多动作混合损失，并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果，该方法可以将性能提高 50％以上，并且在 Gym-μRTS 中，子动作损失表现
PDFa year ago
策略梯度强化学习的一致性 Dropout
本研究分析了在强化学习中使用 dropout 的不适用性，介绍了一种称为 “一致性 dropout” 的方法来解决这种不稳定性，并演示了在宽范围的 dropout 概率下，一致性 dropout 使得 A2C 和 PPO 的连续和离散动作环
PDF2 years ago
PPO 在合作多智能体游戏中令人惊讶的有效性
本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。
PDF3 years ago