Feb, 2024

基于 Transformer 的袋装奖励增强学习:面向实例级奖励重新分配的方法

TL;DR提出了一种称为 RLBR(Reinforcement Learning from Bagged Rewards)的新型 RL 设置,使用基于 Transformer 的奖励模型(Reward Bag Transformer)来探索袋装奖励中的奖励分布,并展示了其在上下文理解和环境动态适应性方面的卓越性能。