ICLRMay, 2022

用户交互离线强化学习

TL;DR本论文提出了一种算法,使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题,通过调整运行时的设定,可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度,并在策略降级或行为过于偏离熟悉行为时随时停止。