ICLRFeb, 2022

通过策略调整学习可转移的目标物体定位奖励

TL;DR本文介绍了一种基于强化学习的对象查询本地化方法,可以通过有限的样例集合训练智能体从而在新环境下进行测试,该方法使用序数度量学习构建可转移的奖励信号,且可以将训练好的智能体从一个类别应用到另一个类别。实验证明该方法在 MNIST、CU-Birds 和 COCO 数据集上的表现优于传统的基于标注图像的方法。