reward engineering | BriefGPT

关键词reward engineering

搜索结果 - 8

利用次优数据进行人类介入强化学习
通过使用零奖励的次优数据进行预训练，SDP 方法改进了人机协同强化学习（HitL RL）算法，从而在九个机器人操作和运动任务中显著提高了性能。
PDF2 months ago
使用课程学习和奖励工程的近端策略优化解决实际优化问题
我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提
PDF3 months ago
GOV-REK：设计鲁棒多智能体强化学习系统的受管理奖励构筑核心
多智能体强化学习系统中，我们提出了 GOVerned Reward Engineering Kernels (GOV-REK) 方法，通过为智能体分配动态奖励分布来解决奖励工程问题和稀疏奖励场景下的政策收敛任务，使用 Hyperband-l
PDF3 months ago
RL-VLM-F: 视觉语言基础模型反馈的强化学习
提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前
PDF5 months ago
不仅有奖励还有约束：应用于四肢机器人的运动
通过提出一种新颖的深度强化学习框架，我们展示了可用于训练复杂机器人系统的神经网络控制器，该框架通过引入约束条件减少了奖励工程的工作量，并实现了较高的任务绩效。
PDF10 months ago
从人类偏好中证明策略学习在上下文强化学习问题中的好处
决策问题中的一个关键任务是奖励工程。没有明显的奖励函数选择的情况在实践中很常见。因此，一种常见方法是在训练过程中引入人类反馈，并利用该反馈来学习奖励函数。在使用人类反馈的所有政策学习方法中，基于偏好的方法在近期的实证应用中表现出相当大的成功
PDFa year ago
带有不确定规格的规划 (PUnS)
本文提出了一种名为 PUnS 的规划方法，可解决非 Markovian 规范的挑战，它们被表达为线性时间逻辑（LTL）公式的信念。该方法可以用于应对许多现实应用中的模糊任务规范，我们提出了四个标准来捕捉不同应用程序的规范信念的语义，最终，我
PDF5 years ago
一种基于策略搜索的时间逻辑指定强化学习任务方法
本文提出了一种基于时间逻辑规范的强化学习策略搜索方法，通过将时间逻辑公式转化为实值函数，来指导策略搜索过程，从而避免手动调整奖励函数的繁琐操作。
PDF7 years ago