从人类互动中学习视觉表达：肌肉给你怎样启示？

ICLROct, 2020

从人类互动中学习视觉表达：肌肉给你怎样启示？

What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions

Kiana Ehsani, Daniel Gordon, Thomas Nguyen, Roozbeh Mottaghi, Ali Farhadi

TL;DR本文研究利用人类交互和注意力提示进行编码样本集，以监督方式提高视觉数据的表征能力，在场景分类（语义）、动作识别（时间）、深度估计（几何学）、动态预测（物理学）和可行走表面（可承受性）等目标任务中都优于最新的视觉学习方法 MoCo (He et al.,2020)。

Abstract

Learning effective representations of visual data that generalize to a variety of downstream tasks has been a long quest for computer vision. Most representation learning approaches rely solely on →

representation learning visual data human interaction attention cues target tasks

发现论文，激发创造

好奇的机器人：通过物理交互学习视觉表示

通过在 Baxter 平台上对对象进行推动、捅戳、抓取和观察等四种不同类型的物理交互来提供学习视觉表示的有效监督，本文使用共享的 ConvNet 体系结构学习了视觉表示，并通过观察神经元活化和最近邻检索来展示所学习的表示的质量，从而在图像分类任务中显示出与学习外部数据相比的改进，在实例检索任务中，本文的网络在回忆率 @1 上比 ImageNet 网络高 3%

Apr, 2016

表示学习在视觉模仿中的惊人有效性

提出了一种解耦表示学习与行为学习的视觉模仿学习方法，使用标准的监督和自监督学习方法来学习视觉表示编码器，然后使用非参数局部加权回归来预测行为。实验结果表明，这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。

Dec, 2021

面向人类的机器人操作的表示学习

人类具有内在的通用视觉表征，使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能，通过任务融合解码器指导表示学习，使得对于所有感知技能来说，学习编码的结构能够更好地表示重要信息，最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器（R3M、MVP 和 EgoVLP）的表示进行了改进，提升了下游操控策略的学习性能。

Oct, 2023

神经身体：使用结构化潜在编码的隐式神经表示，用于动态人体新视角综合

本文提出了 Neural Body，一种人体新的神经表示方法，通过假设不同帧的学习神经表示共享相同的潜在代码来集成视频帧之间的观察，从而解决了高度稀疏的视图的表征学习问题，并在多视点数据集 ZJU-MoCap 上得到了验证。

Dec, 2020

视觉模仿的简易实现

本研究提出了一种基于商用机械臂的可行的、简化了数据收集过程的、能够有效采集各种复杂场景演示数据的人机互动界面，并采用了多项数据增强技术来优化模型的学习性能，最终在非捏取推动和物品堆叠等任务中获得了较高的成功率。

Aug, 2020

感觉的力量：通过遮蔽式多模态学习从视觉和触觉中获得的通用操控

利用视觉和触觉信息在强化学习环境中联合学习策略和视觉触觉表示的蒙掩多模态学习（M3L）方法提高样本效率，并超越单个感官的泛化能力。

Nov, 2023

学习视觉符号以解析图像中的人体姿态

该研究旨在从图像中学习自包含的身体部位表示形式（即称为视觉符号）及其符号化的几何上下文，以此来解析人类姿势，并利用潜在支持向量机和有效的交叉验证过程来对视觉符号进行分类，实现对肢体部位的精细分类。当姿势的构造部分是一棵树时，我们提出了一种有效的方法来估算图像中的人体姿势，并通过两个大型数据集的实验表明，该方法优于现有的方法。

Apr, 2013

从视频中学习三维人体动力学

通过观察人类运动的视觉序列，我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架，通过简单而有效的图像特征时间编码。在测试过程中，学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动，同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练，通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态，证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。

Dec, 2018

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019

从弱文本监督中学习图像中的人际互动

该论文提出了一种新的学习人际互动的方法，利用单张静态图片中的自由文本，实现对人际互动在各种情况和关系中的建模。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法，成功训练出一种 “理解” 图像中人际互动的字幕模型，达到了精确、语义匹配、事实准确的预测模型。该方法在人际互动理解这一任务上，比目前最先进的图像字幕生成和情境识别模型表现更优。

Apr, 2023