ICLRJan, 2024

从泛化的角度弥合 TD 学习和监督学习之间的差距

TL;DR通过分析发现,强化学习算法中的 ' 拼缝属性 ' 与组合泛化相关,而监督学习算法缺乏这一属性,但可通过数据增强的方法解决,从而提高时序数据(如音频、视频或文本)的组合泛化和数据效率。