reward specification | BriefGPT

关键词reward specification

搜索结果 - 4

RoboCLIP：一个演示足够学会机器人策略
RoboCLIP 是一种在线模仿学习方法，通过使用单个示例（视频演示或任务的文本描述）来生成奖励，克服了对大量领域内专家演示的需求，并且还能利用领域外的示例来生成奖励，无需手动设计奖励函数。使用 RoboCLIP 奖励进行训练的强化学习代理
PDF9 months ago
目标的脚印：从人 - 环交互反馈中获得目标条件的探索
通过非专业用户提供的低质量、非同步和嘈杂的反馈，人类引导探索（HuGE）技术在强化学习中引导探索，无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现：人类反馈引导探索，而来自探索数据的自我监督学习产生无偏的策略。HuGE 能够借
PDFa year ago
库存管理的协作多智能体强化学习
本文提出了一种基于强化学习的库存管理系统，主要解决现实供应链环境下的计算需求和奖励框架等问题，并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略，并给出了未来研究方向的讨论。
PDFa year ago
基于遗憾的马尔可夫决策过程奖励引导方法
本论文将奖励函数规范的问题视为偏好引出问题，并旨在在仍允许产生最优或接近最优策略的情况下，最小化必须规定奖励函数的精度。通过使用极小极大后悔准则来计算只有部分奖励信息的 MDP 的健壮策略，然后演示如何使用边界查询高效引出奖励信息，以减少后
PDF12 years ago