利用任务奖励调整计算机视觉模型
本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向,并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。
Nov, 2018
本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。
Sep, 2019
通过人类反馈,提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法:表示对齐的基于偏好的学习(RAPL)。在 X-MAGICAL 和机器人操纵的实验中,RAPL 的奖励 consistently 生成高样本效率的优选机器人行为,并在视觉表征来自与机器人不同的实体的情况下显示出强大的零样本泛化能力。
Oct, 2023
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
本文介绍一种基于一致性损失的计算机视觉多任务联合训练框架,充分利用多任务之间的内在关联性,实现对多个关联任务的同时训练及性能提升,并且减少数据标注的需求,支持无监督学习和模拟数据训练。测试结果表明,该框架在深度 / 法向量预测、语义分割、3D 运动 / 自身运动估计、点云物体跟踪和 3D 检测等任务上,皆有显著提升。
May, 2020
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016