dense rewards | BriefGPT - AI 论文速递

关键词dense rewards

搜索结果 - 7

机器人学习中目标达成任务的恒定负奖励再探讨
实验对比了最短时间任务和密集奖励任务的奖励范式，发现最短时间任务规定不仅有助于学习更高质量的策略，而且在性能指标上也能超越基于密集奖励的策略。关键是，我们还确定了初始策略的目标达成率在稀疏反馈设置中是学习成功的一个稳健的早期指标。最后，我们
PDF7 days ago
ICLRDrS: 针对多阶段任务学习可重复使用的密集奖励
我们提出了一种学习可重复使用稠密奖励的新方法，称为 DrS，能够通过利用任务的阶段结构从稀疏奖励和示范中学习高质量的稠密奖励，并在未知任务中复用，从而减少了人工奖励设计的工作。实验证明我们学到的奖励在未知任务中可以复用，提高了强化学习算法的
PDF2 months ago
以代码为酬励：以 VLMs 强化学习为动力
利用预训练的视觉语言模型（VLMs）来支持强化学习代理的训练，提出了一种名为 VLM-CaR 的框架，通过代码生成从 VLMs 生成密集奖励函数，从而大大减轻了直接查询 VLM 的计算负担，证明了该方法在各种离散和连续环境中生成的密集奖励非
PDF5 months ago
DRLC：来自 LLM 批评者的强化学习与稠密奖励
通过引入批评语言模型的框架，利用密集奖励对强化学习中的稀疏奖励进行补偿，本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性，实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提
PDF6 months ago
模拟最短路径实现在真实世界中的有效导航和操作
在这项工作中，我们展示了在模拟环境中模仿最短路径规划者能够产生使得智能体可以根据语言指令熟练地导航、探索和操作对象的代理，仅使用 RGB 传感器（无深度图或 GPS 坐标）。这一令人惊讶的结果得益于我们的端到端、基于 transformer
PDF7 months ago
使用时间变化的自我监督学习密集奖励
本文提出了一种从多模态观察中抽取稠密奖励的更高效和更强韧的方法，在联合装配和开门两个实验设置中测试表明，这种方法在学习稠密奖励方面是有效和高效的，并且学习到的奖励导致更快的收敛。
PDF2 years ago
无监督控制文本生成的高效强化学习
提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍
PDF2 years ago