Dec, 2023

强化学习中的乐观和悲观演员:拆分探索与利用

TL;DR优化和悲观主动者强化学习 (OPARL) 框架采用乐观和悲观两个角色的独特方法,在深度神经网络的泛化性能方面取得了显著提升。