proximal policy optimization | BriefGPT

关键词proximal policy optimization

搜索结果 - 101

微反应器中的多步临界性搜索和功率整形的强化学习
通过使用深度强化学习技术，本研究在核微堆设计的高保真模拟中使用 PPO 和 A2C 算法，训练智能控制代理器以寻找最佳控制策略，以降低运营和维护成本，并实现自主运行。
PDF12 days ago
增强医学知识检索辅助生成：自奖励树搜索和近端策略优化
通过结合 Large Language Models 的推理能力和 Tree Search 的效果，我们提出了一种基于 Self-Rewarding Tree Search 的新型 LLM 检索方法，通过使用 SeRTS 收集的轨迹作为反馈
PDF17 days ago
多目标强化学习从 AI 反馈
多目标强化学习（MORLAIF）通过使用 AI 反馈强化学习来改善语言模型的对齐和性能，将这一任务分解为多个简单的原则，如毒性、客观性和谄媚，并使用 GPT-3.5-Turbo 的反馈进行各原则的偏好模型训练，然后利用不同的标量化函数将这些
PDF23 days ago
多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别
在多智能体强化学习中，准确地感知对手策略对于合作和对抗环境都是必不可少的，本文提出了一种在线算法 OPS-DeMo，通过使用动态误差衰减来检测对手策略的变化，并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练，相较于 PPO，在动
PDF24 days ago
跨域行为策略优化的转导式离策略优化
这篇论文介绍了一种名为 Transductive Off-policy PPO（ToPPO）的新型离策略 PPO 方法，通过引入离策略数据，提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导，包括从离策略数据中得出潜在策略的政
PDFa month ago
语言模型是否容易受到 PPO 攻击？
我们的研究旨在通过使用静态学习的情感分类器评估奖励对积极情感生成的影响，并在机械翻译可解释性的视角下研究经过近端策略优化的预训练 GPT-2 模型。
PDFa month ago
粒子物理实验中的数据质量监控与基于人工强化学习
大型粒子物理实验中的数据质量监测（DQM）是一项关键任务，本文提出了一种在时间变化的操作条件下自动化 DQM 过程的人机协同强化学习（RL）的概念验证，并基于 Proximal Policy Optimization（PPO）算法实现了一个
PDFa month ago
通过强化学习对语言模型进行微调以提升精确目标分子生成
本研究采用创新的全新药物设计策略，利用语言模型的能力为特定蛋白质设计有针对性的药物。我们采用强化学习框架和近端策略优化对模型进行优化，获得生成适用于蛋白质靶点的药物的策略。通过融合药物 - 靶点相互作用和分子有效性的综合奖励函数，我们的方法
PDF2 months ago
自适应探索的近端策略优化
探讨了在强化学习环境下的探索与利用权衡，提出了自适应探索的近端策略优化算法（axPPO），该方法通过根据智能体的最近表现动态调整探索幅度，提高了学习效率，特别是在学习过程开始阶段需要大量探索性行为时。
PDF2 months ago
没有代表，没有信任：连接 PPO 中的代表、崩溃和信任问题
通过对 Atari 和 MuJoCo 环境中的 PPO 代理的实证研究，揭示了 PPO 代理受特征秩降低和可塑性丧失的影响，这一现象加剧了强非稳态性，最终导致演员的性能崩溃，无论评论家的性能如何。我们建立了表示崩溃、性能崩溃和 PPO 中的
PDF2 months ago
DPO 相遇 PPO：针对 RLHF 的强化标记优化
在这篇研究中，我们介绍了一种将人类反馈引入加强学习的框架，并提出了一种基于标记级别信息的算法，通过学习标记级别的奖励函数并进行策略优化，从而有效地解决了传统深度强化学习中的挑战。
PDF2 months ago
REBEL: 通过回归相对奖励实现强化学习
REBEL 是一种极简的强化学习算法，通过直接策略参数化在两个 prompt 完成之间进行相对奖励的回归，以更轻量级的实现方式解决了生成模型的策略优化问题，理论上证明了基本强化学习算法如自然策略梯度可以看作 REBEL 的变种，从而在强化学
PDF2 months ago
IJCAI用于能源从扩散波的强化学习控制器的函数逼近
工业多发电机波浪能转换器（WEC）需要处理来自不同方向的多个同时波浪，这些复杂设备在挑战性环境下需要同时追求能量捕获效率、结构应力减少以限制维护和主动保护免受高波浪影响的多目标控制器；本文采用 Proximal Policy Optimiz
PDF3 months ago
零样本可扩展协作的异构多智能体强化学习
我们提出了一个名为 SHPPO 的新型 MARL 框架，通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中，实现了可扩展性和异构性，并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团
PDF3 months ago
提升物联网智能性：基于 Transformer 的强化学习方法
通过将 transformer 架构与 Proximal Policy Optimization（PPO）相结合，本文引入了一种新颖的框架来解决物联网应用中复杂环境下智能决策中的挑战，通过利用 transformer 的自注意机制，增强了强
PDF3 months ago
基于近端策略优化的智能家庭太阳能管理
通过基于 Proximal Policy Optimization (PPO) 的框架，使用循环奖励模型来最大化利润，相比其他简单算法在累积总利润方面取得了 30％以上的改进，该方法在复杂领域如金融市场中进行增强学习算法以规划行动方面表现出
PDF3 months ago
使用课程学习和奖励工程的近端策略优化解决实际优化问题
我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提
PDF3 months ago
使用对比奖励提升来自人类反馈的强化学习
本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果
PDF4 months ago
四旋翼飞行器控制的自适应增益调度
本文通过使用强化学习技术 (Reinforcement Learning, RL) 来调整四旋翼控制器的控制增益，特别地，我们采用了近端策略优化 (Proximal Policy Optimization, PPO) 来训练一个根据实际情况
PDF4 months ago
（N,K）- 拼图：基于生成语言模型的强化学习算法基准测试平台
近期强化学习在语言模型的性能提升方面取得了重要突破，然而缺乏经济实惠且标准化的测试平台来评估和比较这些算法。为了填补这一空白，我们提出了一个广义的 24 数码游戏：$(N,K)$-Puzzle，其挑战语言模型以 $N$ 个整数达到目标值 $
PDF4 months ago