AAAIFeb, 2022

目标识别作为强化学习

TL;DR本文提出了一种结合基于模型的强化学习和目标识别的框架,在离线学习和在线推理阶段分别使用 tabular Q-learning 和三种推理度量,以解决目标识别中需要手动设计、在线计算等问题,从而在标准评估环境中实现了最先进的性能,同时在嘈杂环境中也表现出了优异的性能。