BriefGPT.xyz
Ask
alpha
关键词
reward specification
搜索结果 - 4
RoboCLIP:一个演示足够学会机器人策略
RoboCLIP 是一种在线模仿学习方法,通过使用单个示例(视频演示或任务的文本描述)来生成奖励,克服了对大量领域内专家演示的需求,并且还能利用领域外的示例来生成奖励,无需手动设计奖励函数。使用 RoboCLIP 奖励进行训练的强化学习代理
→
PDF
9 months ago
目标的脚印:从人 - 环交互反馈中获得目标条件的探索
通过非专业用户提供的低质量、非同步和嘈杂的反馈,人类引导探索(HuGE)技术在强化学习中引导探索,无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现:人类反馈引导探索,而来自探索数据的自我监督学习产生无偏的策略。HuGE 能够借
→
PDF
a year ago
库存管理的协作多智能体强化学习
本文提出了一种基于强化学习的库存管理系统,主要解决现实供应链环境下的计算需求和奖励框架等问题,并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略,并给出了未来研究方向的讨论。
PDF
a year ago
基于遗憾的马尔可夫决策过程奖励引导方法
本论文将奖励函数规范的问题视为偏好引出问题,并旨在在仍允许产生最优或接近最优策略的情况下,最小化必须规定奖励函数的精度。通过使用极小极大后悔准则来计算只有部分奖励信息的 MDP 的健壮策略,然后演示如何使用边界查询高效引出奖励信息,以减少后
→
PDF
12 years ago
Prev
Next