BriefGPT.xyz
大模型
Ask
alpha
关键词
bagged rewards
搜索结果 - 1
基于 Transformer 的袋装奖励增强学习:面向实例级奖励重新分配的方法
提出了一种称为 RLBR(Reinforcement Learning from Bagged Rewards)的新型 RL 设置,使用基于 Transformer 的奖励模型(Reward Bag Transformer)来探索袋装奖励中
→
PDF
5 months ago
Prev
Next