从人类互动中学习视觉表达:肌肉给你怎样启示?
通过在 Baxter 平台上对对象进行推动、捅戳、抓取和观察等四种不同类型的物理交互来提供学习视觉表示的有效监督,本文使用共享的 ConvNet 体系结构学习了视觉表示,并通过观察神经元活化和最近邻检索来展示所学习的表示的质量,从而在图像分类任务中显示出与学习外部数据相比的改进,在实例检索任务中,本文的网络在回忆率 @1 上比 ImageNet 网络高 3%
Apr, 2016
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP 和 EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。
Oct, 2023
本文提出了 Neural Body,一种人体新的神经表示方法,通过假设不同帧的学习神经表示共享相同的潜在代码来集成视频帧之间的观察,从而解决了高度稀疏的视图的表征学习问题,并在多视点数据集 ZJU-MoCap 上得到了验证。
Dec, 2020
本研究提出了一种基于商用机械臂的可行的、简化了数据收集过程的、能够有效采集各种复杂场景演示数据的人机互动界面,并采用了多项数据增强技术来优化模型的学习性能,最终在非捏取推动和物品堆叠等任务中获得了较高的成功率。
Aug, 2020
利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习(M3L)方法提高样本效率,并超越单个感官的泛化能力。
Nov, 2023
该研究旨在从图像中学习自包含的身体部位表示形式(即称为视觉符号)及其符号化的几何上下文,以此来解析人类姿势,并利用潜在支持向量机和有效的交叉验证过程来对视觉符号进行分类,实现对肢体部位的精细分类。当姿势的构造部分是一棵树时,我们提出了一种有效的方法来估算图像中的人体姿势,并通过两个大型数据集的实验表明,该方法优于现有的方法。
Apr, 2013
通过观察人类运动的视觉序列,我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架,通过简单而有效的图像特征时间编码。在测试过程中,学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动,同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练,通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态,证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。
Dec, 2018
本文介绍了一种新的学习方法,MIL-NCE, 用于从讲述视频中学习强大的视频表示,并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频,有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估,证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。
Dec, 2019
该论文提出了一种新的学习人际互动的方法,利用单张静态图片中的自由文本,实现对人际互动在各种情况和关系中的建模。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法,成功训练出一种 “理解” 图像中人际互动的字幕模型,达到了精确、语义匹配、事实准确的预测模型。该方法在人际互动理解这一任务上,比目前最先进的图像字幕生成和情境识别模型表现更优。
Apr, 2023