BriefGPT.xyz
Ask
alpha
关键词
reward misalignment
搜索结果 - 1
ICML
FuRL:基于模糊奖励的强化学习的视觉 - 语言模型
本研究调查了如何利用预训练的视觉语言模型(VLM)用于在线强化学习(RL),特别关注稀疏奖励任务下的奖励错位问题,提出了一种轻量级微调方法(称为 FuRL),通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能
→
PDF
a month ago
Prev
Next