ICLRJan, 2024
从泛化的角度弥合 TD 学习和监督学习之间的差距
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View
Raj Ghugare, Matthieu Geist, Glen Berseth, Benjamin Eysenbach
TL;DR通过分析发现,强化学习算法中的 ' 拼缝属性 ' 与组合泛化相关,而监督学习算法缺乏这一属性,但可通过数据增强的方法解决,从而提高时序数据(如音频、视频或文本)的组合泛化和数据效率。