Jun, 2023

离线强化学习中的生存本能

TL;DR研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下 RL 算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线 RL 基准结果和创建未来基准时应该被考虑。