生活方式视频中可见行为的识别

ACLJun, 2019

Identifying Visible Actions in Lifestyle Vlogs

Oana Ignat, Laura Burdick, Jia Deng, Rada Mihalcea

TL;DR本研究关注于在线视频中可见的人类行为的识别，提出一种多模态算法，利用视觉和语言线索自动推断视频中哪些行为可见，并通过人工标注数据集进行验证，结果表明该算法的表现优于单一模态算法。

Abstract

We consider the task of identifying human actions visible in online videos. We focus on the widely spread genre of lifestyle vlogs, which consist of videos of people performing actions while verbally describing t

human actions online videos multimodal algorithm visual linguistic clues

发现论文，激发创造

多模态声道建模的分割

利用实时磁共振成像技术进行声道建模时的挑战和解决方案，通过视觉分割和多模态算法提高 MR 图像中声道部分的分割准确性，并释放了一个包含 75 个说话人的 RT-MRI 数据集的标注，增加了 9 倍以上的公共 RT-MRI 声道数据数量。

Jun, 2024

MeMSVD: 使用增量 SVD 捕捉长程时域结构

这篇研究论文讨论了长期视频理解的问题，提出了一种基于低秩逼近的方案来解决注意力机制的复杂性和内存存储问题，并通过大量实验验证了该方案在不同架构和任务上的优越性。

Jun, 2024

多模态跨文档事件共指消解的线性语义转移和混合模态集成

提出了一种融合视觉和文本线性映射的多模态跨文档事件共指解析方法，通过对事件中心图像的集成，对核心指称进行融合模型、线性映射和集合方法进行处理，实现了对事件共指的跨模态线性映射，为核心指称解析领域提供了多模态信息的实用性和需要更多多模态资源的提示。

Apr, 2024

基于骨骼的带有噪声标签的人体动作识别

理解人体姿势的行为对于与人类共享空间的辅助机器人来说是至关重要的，为了能够对下一次交互做出明智和安全的决策。然而，准确的时间定位和标注活动序列是耗时的，而且结果往往带有噪声。本研究通过将骨架动作识别方法与来自多个研究领域的标签去噪策略相结合，填补了这一空白，为此实施了一个框架作为初始基准。观察结果显示，这些基准在处理稀疏骨架数据时仅能提供较小的性能。因此，我们提出了一种新的方法，NoiseEraSAR，它集成了全局样本选择、共同教学和交叉模态混合专家（CM-MOE）策略，旨在减轻标签噪声的不利影响。我们的方法在已建立的基准上展示了更好的性能，树立了新的最先进标准。本研究的源代码将在此 https URL 上公开。

Mar, 2024

多模态视觉触觉表示学习通过自监督对比预训练

通过利用对比学习的方法，本文介绍了 MViTac，一种将视觉和触觉感知以自我监督的方式整合的新方法，通过使用这两种传感器输入，MViTac 利用内部和跨模态损失进行表示学习，从而实现了更好的材料属性分类和更精确的抓取预测。实验证明了 MViTac 方法的有效性及其对现有最先进的自监督和有监督技术的优势。

Jan, 2024

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

灵活计数：野外人类动作范例识别与小样本计数

本研究通过使用可穿戴设备的传感器数据来计算人类感兴趣的动作的数量，提出了一种新颖的基于样例的框架，允许用户通过发出预定义声音 ''one''、''two'' 和 ''three'' 来提供所需计数的样例。我们的方法首先从音频序列中定位这些话语的时间位置。这些位置用于识别代表感兴趣的动作类别的样例。然后，在样例和整个传感器数据序列之间计算相似度映射，然后将其输入到密度估计模块中生成一系列估计的密度值。将这些密度值相加即可得到最终的计数。我们引入了一个包含来自 37 个被试者和 50 个动作类别的真实数据的多样化和真实性的数据集来开发和评估我们的方法，其中包括传感器和音频数据。在该数据集上的实验证明了该方法在计算新类和训练数据中不包含的受试者的动作实例时的可行性。平均而言，预测计数与实际值之间的差异为 7.47，显著低于基于频率和基于转换器的方法的误差。本研究的项目、代码和数据集可以在此 https URL 找到。

Dec, 2023

CAST: 视频动作识别中的时空交叉注意力

我们提出了一种新的双流架构，称为 Cross-Attention in Space and Time (CAST)，它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测，从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400 等公共基准数据集进行了大量实验证明了所提方法的优越性能。与现有方法相比，在不同数据集特征下，我们的方法始终表现出较好的性能。

Nov, 2023

GPT-4V (ision) 用于机器人：来自人类演示的多模态任务规划

我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线，以促进机器人操纵。该系统分析人类执行任务的视频，并创建包含可支配见解的可执行机器人程序。实验表明，该方法在实现从人类示范中的真实机器人操作方面具有显著效果。

Nov, 2023

理解路径规划解释

通过图像和文本解释，我们提出了关于机器人导航决策的理解性和简洁性的用户研究。

Nov, 2023