跨模态共识扩张上下文整合网络在视频情绪时序定位中的应用

Aug, 2022

跨模态共识扩张上下文整合网络在视频情绪时序定位中的应用

Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos

Juncheng Li, Junlin Xie, Linchao Zhu, Long Qian, Siliang Tang...

TL;DR本论文提出了一个名为 “视频中的时间情感定位” 的新任务，其旨在检测人类情感并定位其对应的时间边界。当前的工作仅限于裁剪的视频级情感分类，未能定位对应于情感的时间窗口。作者提出了一种新型的扩张上下文集成网络，具有粗细两个流架构，以及跨模态共识学习范例，通过对齐的字幕来获取弱监督学习。经过广泛实验，表明了其方法在情感定位方面的有效性。

Abstract

Understanding human emotions is a crucial ability for intelligent robots to provide better human-robot interactions. The existing works are limited to trimmed video-level emotion classification, failing to locate the temporal window corresponding to the emotion. In this paper, we introduce a new task, named Temporal Emotion Localization in videos~(TEL), whic

human-robot interaction emotion detection temporal localization coarse-fine two-stream architecture cross-modal consensus learning

发现论文，激发创造

野外视频情感分类的时间多模态融合

本文通过使用卷积神经网络改进面部描述符，并探索多种融合方法，建立并优化 CNN 架构，解决情感分类问题，获得了 2017 年 “Emotion in the Wild” 挑战赛第四名的准确性，达到了 58.8％。

Sep, 2017

时间建模至关重要：一种新的面向语音情感识别的时间情感建模方法

本文介绍了一种基于时间的情感建模方法，称为 TIM-Net，它学习来自各种时间尺度的多尺度情境情感表示，并用于提高语音情感识别的性能，实验结果表明 TIM-Net 在六个基准数据集上表现出优异的性能。

Nov, 2022

丰富时空动作定位的本地和全局上下文

该研究提出了一种名为 ContextLoc 的模型，通过丰富本地和全局上下文来解决时态动作定位的问题，并在 THUMOS14 和 ActivityNet v1.3 数据集上实现 56％以上的性能表现。

Jul, 2021

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

大型视觉语言模型的语境情感识别

在这篇研究论文中，我们使用最近的大型视觉语言模型来探讨两种主要方法：图像字幕生成与仅使用语言的 LLM，以及零样本和微调设置下的视觉语言模型。我们在 Emotions in Context（EMOTIC）数据集上评估这些方法，并展示出即使在小型数据集上进行微调，视觉语言模型的性能也能显著超过传统的基准方法。我们的研究结果旨在帮助未来的机器人和智能系统对情感进行敏感的决策和交互行为。

May, 2024

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

利用时间语境进行视频动作识别

TC-CLIP 是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Apr, 2024

通过身体、环境和视觉 - 语义嵌入损失在视频中理解情感

本文介绍了我们在第一届身体表现情感理解（BEEU）挑战赛中的获奖作品。我们基于情绪环境的影响和使用词嵌入的语义视觉表示的最新文献，扩展了时间段网络的框架来适应这些要求。验证了我们的方法在 “Body Language Dataset”（BoLD）的验证集上，并在测试集上实现了 0.26235 的情绪识别准确率，超过了以前最佳结果 0.2530。

Oct, 2020

情感过程：用于情感和面部表情识别的时间上下文随机建模

该研究提出了一种基于神经过程的方法，使用全局潜在变量模型的概率性语境表示与任务特定预测结合，智能地选择时间上下文，并在四个数据库上进行验证，在情感识别等方面取得了比强基线和现有方法更为一致的进步。

Mar, 2021