May, 2023

PROTO: 迭代策略规范化离线到在线强化学习

TL;DRPROTO 使用逐步演化的正则化项优化标准 RL 目标,实现离线到在线 RL 的路径,与各种方法高度适应并具有高效的在线调整性能。