通过策略调整学习可转移的目标物体定位奖励

ICLRFeb, 2022

通过策略调整学习可转移的目标物体定位奖励

Learning Transferable Reward for Query Object Localization with Policy Adaptation

Tingfeng Li, Shaobo Han, Martin Renqiang Min, Dimitris N. Metaxas

TL;DR本文介绍了一种基于强化学习的对象查询本地化方法，可以通过有限的样例集合训练智能体从而在新环境下进行测试，该方法使用序数度量学习构建可转移的奖励信号，且可以将训练好的智能体从一个类别应用到另一个类别。实验证明该方法在 MNIST、CU-Birds 和 COCO 数据集上的表现优于传统的基于标注图像的方法。

Abstract

We propose a reinforcement learning based approach to query object localization, for which an agent is trained to localize objects of interest specified by a small exemplary set. We learn a transferable reward si

reinforcement learning query object localization transferable reward policy adaptation ordinal metric learning

发现论文，激发创造

树形结构强化学习用于序列目标定位

本文提出了一种基于树形结构的强化学习方法，用于目标检测中的物体提议，通过学习多个搜索策略，全面利用当前观察和历史搜索路径来提高检测准确率和覆盖率。实验证明，相较于现有算法，该方法可以通过更少的候选窗口实现可比较的召回率。

Mar, 2017

深度强化学习目标检测

本文介绍了一种基于深度强化学习的主动目标定位算法，比较了两种不同的决策过程方法：分层方法和动态方法，并进一步通过调整不同的超参数和架构变化对模型性能进行了消融研究。

Aug, 2022

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

一种基于上下文感知的端到端自然语言对象检索方法

本文介绍一种通过深度强化学习的方式，结合空间和时间情境及自然语言先验知识，移动和重塑边界框以定位描述中的物体，从而实现自然语言目标检索任务。作者实验表明，该方法在多个数据集上均优于现有算法，特别在 ReferItGame 数据集上，该方法相比 GroundeR 和 SCRC 的准确率分别提高了 7.67％和 18.25％。

Mar, 2017

Active Object Perceiver：基于识别引导的移动机器人目标搜索策略学习

本文通过机器人视觉输入来学习其在室内环境中寻找感兴趣物体的导航策略，并提出了一种基于深度学习和强化学习的新型框架，结合了目标识别模块和动作预测机制，并使用一种新的衰减奖励函数来验证所提方法的有效性，通过模拟和实际机器人实验表明了其方法在平均轨迹长度和成功率方面优于竞争方法。

Jul, 2018

利用深度强化学习进行主动物体定位

提出了一种用于在场景中定位目标物体的主动检测模型，该模型是类特定的，并允许代理集中注意力于识别目标物体的候选区域，通过深度强化学习训练定位代理，并在 Pascal VOC 2007 数据集上评估，结果表明，使用该模型指导的代理能够在分析图像中仅仅探测 11 到 25 个区域后定位一个物体实例，并且在不使用物体提议进行物体定位的系统中取得了最佳的检测结果。

Nov, 2015

协作深度强化学习用于联合目标搜索

本研究采用协作多智能体深度强化学习算法，通过交互检测目标间的上下文线索，实现联合主动目标本地化，并在多个对象检测基准上验证了该方法的性能提升及其揭示的可解释的共同检测模式。

Feb, 2017

部署期间的自监督政策适应

本文旨在研究如何在不同的环境之间进行强化学习模型的泛化，通过自我监督的方法实现模型的持续学习并在 36 个环境中的 31 个上实现了显著的改进，这些环境包括来自 DeepMind 控制套件和 ViZDoom 的多样的仿真环境以及实际机器人操作任务中的连续变化的环境。

Jul, 2020

主动视觉学习中的语义好奇心

本文研究了物体检测的体现式交互学习任务，提出基于自监督学习方法的探索策略，使用语义好奇心奖励轨迹样本，通过该方法训练的探索策略具有普适性，能够帮助训练出优于其他方法的物体检测器。

Jun, 2020

一种基于优势的强化学习策略迁移算法及其可迁移性度量

本文提出了一种基于收益的策略转移算法 APT-RL，用于在固定领域环境中的强化学习，通过使用 “优势” 作为正则项，避免了启发式选择算法设计，并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架，实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法，并且比从零开始学习更加高效。

Nov, 2023