AAAIDec, 2023

OVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求

TL;DR在探索嘈杂环境中,乐观导向探索为基础,对高噪声区域的过度探测进行了缓解,提出了一种噪声感知的乐观探索方法-OVD-Explorer,通过梯度上升推动探索,在连续控制强化学习任务中取得了优越的结果。