Jun, 2024

深度强化学习中的悲观和乐观动态探索

TL;DR通过利用悲观的状态 - 动作值函数更新,以及通过可解释参数独立控制悲观 / 乐观程度,Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡,可以根据任务的性质,在恰当配置的悲观 / 乐观参数情况下胜过现有算法。