Feb, 2024
基于 Transformer 的袋装奖励增强学习:面向实例级奖励重新分配的方法
Reinforcement Learning from Bagged Reward: A Transformer-based Approach for Instance-Level Reward Redistribution
Yuting Tang, Xin-Qiang Cai, Yao-Xiang Ding, Qiyu Wu, Guoqing Liu...
TL;DR提出了一种称为 RLBR(Reinforcement Learning from Bagged Rewards)的新型 RL 设置,使用基于 Transformer 的奖励模型(Reward Bag Transformer)来探索袋装奖励中的奖励分布,并展示了其在上下文理解和环境动态适应性方面的卓越性能。