BriefGPT.xyz
Ask
alpha
关键词
esper
搜索结果 - 2
不能只依赖运气:决策 Transformer 和 RvS 在随机环境中的失败
本文介绍了基于预测任务的强化学习方法在随机环境下的局限性,并提出了一种名为 ESPER 的解决方案,该方法学习轨迹聚类并以平均聚类收益进行条件约束,从而在真实环境中实现了目标收益和预期性能的强对齐。ESPER 在多项挑战性的离线 RL 任务
→
PDF
2 years ago
多模态知识对齐与强化学习
本论文提出了一种名为 ESPER 的方法,将仅基于语言的零 - shot 模型扩展到未见过的多模态任务,如图像和音频字幕生成,采用强化学习来无需直接监督地将多模态输入与语言模型生成对齐,实验表明该方法胜过了基线和之前工作的新基准测试。
PDF
2 years ago
Prev
Next