通过视觉基础模型和离线强化学习增强体感视觉跟踪

Apr, 2024

通过视觉基础模型和离线强化学习增强体感视觉跟踪

Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL

Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen

TL;DR提出了一个结合了视觉基础模型和离线强化学习的新框架，以赋予具有体内视觉的智能体进行视觉跟踪任务，并通过使用蒙版重定向机制和多级数据收集策略进一步提高了跟踪结果的稳健性和泛化性。通过对多种高保真度场景进行的评估，结果表明该方法在样本效率、对干扰物的稳健性和对未见情况和目标的泛化能力方面明显优于现有的方法，并证明了学习到的跟踪器从虚拟世界到真实场景的可迁移性。

Abstract

embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor →

embodied visual tracking offline reinforcement learning visual foundation models robustness generalization

发现论文，激发创造

基于深度强化决策的实时视觉跟踪

该研究提出了一种基于深度强化学习方法构建的模板选择策略的实时视觉追踪算法，该算法可有效应对模型更新导致的跟踪偏移问题，可在实时速度下以 43fps 跑动。

Feb, 2017

视频视觉目标跟踪的深度强化学习

本文提出一种全面的端到端视频视觉跟踪方法，利用循环卷积神经网络代理与视频进行交互，并结合强化学习算法来学习不断的关注连续帧相关性和最大化在长期内的跟踪性能，实现了比现有跟踪基准更快速的状态 - of-the-art 性能。是第一个将卷积和循环网络与强化学习算法相结合的神经网络跟踪器。

Jan, 2017

离线视觉表示学习用于体感导航

本文提出一种名为离线视觉表示学习的方法，通过使用自监督学习在大规模图片数据上进行离线预训练，再在线微调特定任务中的视觉运动表示，并在多个数据集上进行了实验，发现该方法在图像导航和目标导航任务上均取得了显著的性能提升。

Apr, 2022

基于强化学习的端到端主动目标跟踪

本研究采用深度强化学习的端到端方法，结合 ConvNet-LSTM 函数的预测能力，提出了一种针对活动物体追踪的解决方案，并通过环境增强技术和定制的奖励函数进行训练。结果表明，在模拟器中训练的跟踪器能够在未知的物体移动路径、外观、背景和干扰物的情况下表现良好。实验还表明，单独在模拟器中训练的跟踪能力具有潜在的适用性和推广性，可以在真实情况下进行。

May, 2017

使用精简强化的模型进行 Tracker 追踪

本文提出了一种新的视觉目标跟踪模型，通过知识蒸馏和强化学习训练了一个紧凑的学生模型，可以从其他跟踪器中传输和压缩跟踪知识，并利用在线学习的评估措施，建立一个快速、简单且有效的跟踪机制使得最终跟踪器与实时最先进的跟踪器具有相同的竞争力。

Jul, 2020

面具世界模型的视觉控制

通过自编码器和动态学习的分离以及辅助奖励预测目标的引入，提出了一种新的视觉模型 RL 框架，取得了 Meta-world 和 RLBench 的 50 项任务中，81.7% 的成功率的表现。

Jun, 2022

端到端主动物体追踪及其通过强化学习实际部署

本研究通过深度强化学习解决了目标跟踪和摄像头控制任务难以共同调整的问题，并在模拟器上训练的跟踪器表现出良好的泛化能力，且具备潜在的真实场景应用价值。

Aug, 2018

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

面向语义分割的视觉活动学习

本文研究了具体化视觉主动学习任务，该任务通过选择性的视野请求注释来探索三维环境，以获取场景理解，我们通过开发一系列智能体来研究具体化视觉主动学习，其中智能体配备语义分割网络，并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求，得到了可靠的结果。

Dec, 2020

基于视觉观测的离线强化学习中的挑战与机遇

本文旨在建立连续控制的视觉基线，通过离线强化学习从视角上建立简单的基线，并在数据集中严格评估算法，同时分析了离线视角下的重要的特殊需求。

Jun, 2022