Apr, 2023

基于贝叶斯赌博机的策略不变显式塑形方法,用于融合外部建议的强化学习

TL;DR该论文提出一种名为 Shaping-Bandits 的多臂赌博问题来解决如何将外部建议纳入强化学习智能体的学习之中,并提出了三种不同的塑形算法,旨在考虑遵循专家策略或默认 RL 算法的长期后果。通过实验验证这些算法在四个不同的设置中实现了所述目标。