利用任务奖励调整计算机视觉模型

Feb, 2023

利用任务奖励调整计算机视觉模型

Tuning computer vision models with task rewards

André Susano Pinto, Alexander Kolesnikov, Yuge Shi, Lucas Beyer, Xiaohua Zhai

TL;DR采用强化学习技术将计算机视觉模型与任务奖励对齐，以解决复杂结构输出的误差问题，在多个计算机视觉任务中（对象检测，全景分割，着色，图像字幕）都显示出惊人的有效性。这种方法有望广泛用于使模型更好地与各种计算机视觉任务对齐。

Abstract

misalignment between model predictions and intended usage can be detrimental for the deployment of computer vision models. The issue is exacerbated when the task involves complex →

computer vision models misalignment structured outputs reinforcement learning computer vision tasks

发现论文，激发创造

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

你在意什么？致力于机器人学习的视觉表征对齐

通过人类反馈，提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法：表示对齐的基于偏好的学习（RAPL）。在 X-MAGICAL 和机器人操纵的实验中，RAPL 的奖励 consistently 生成高样本效率的优选机器人行为，并在视觉表征来自与机器人不同的实体的情况下显示出强大的零样本泛化能力。

Oct, 2023

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

奖励微调以提高更快和更准确的无监督目标发现

通过利用人类反馈进行强化学习，无监督对象发现的准确性和训练速度得到了显著提高。

Oct, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

Taskology: 任务关系的大规模利用

本文介绍一种基于一致性损失的计算机视觉多任务联合训练框架，充分利用多任务之间的内在关联性，实现对多个关联任务的同时训练及性能提升，并且减少数据标注的需求，支持无监督学习和模拟数据训练。测试结果表明，该框架在深度 / 法向量预测、语义分割、3D 运动 / 自身运动估计、点云物体跟踪和 3D 检测等任务上，皆有显著提升。

May, 2020

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016