Jun, 2024

强化学习中的自助法期望分位数估计

TL;DR基于预期化引入一种形式的悲观主义,提出了一种新的强化学习方法 ExpectRL,并在处理过度估计问题和鲁棒性强化学习方面取得了比传统方法更好的结果。