Jun, 2023

离线强化学习中的自动折衷适应

TL;DR本文提出一种改进的离线强化学习算法 - AutoLION,该算法可以在运行时自适应地调整策略行为,利用自动驾驶寻找正确的权衡参数来平衡保守性和性能优化。