Apr, 2025

离线强化学习的新起点

TL;DR本研究解决了离线强化学习中存在的模糊问题定义和复杂算法设计所造成的实现不一致和评估不公的问题。通过引入系统的分类法和透明的评估协议,以及提供简洁明了的算法实现,研究提出了一个统一的算法Unifloral,并开发了两种新算法,显著提升了性能和效率。