MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

Apr, 2024

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

MTGA: Multi-view Temporal Granularity aligned Aggregation for Event-based Lip-reading

Wenhao Zhang, Jun Wang, Yong Luo, Lei Yu, Wei Yu...

TL;DR利用说话人的嘴唇运动的视觉信息来识别单词和句子的口型识别技术，通过多视角时间粒度对齐聚合（MTGA）框架，结合时间分段的体素图列表、时空融合模块、和位置编码的时间聚合模块，本文提出的方法优于基于事件和基于视频的口型识别方法。

Abstract

lip-reading is to utilize the visual information of the speaker's lip movements to recognize words and sentences. Existing event-based lip-readin

lip-reading event-based temporal granularity spatio-temporal fusion positional encoding

发现论文，激发创造

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

MTAG: 模态 - 时间注意力图用于不对齐的人类多模态语言序列

本文提出了可解释的基于图的神经模型 MTAG，通过构建多模态序列数据的图，设计了 MTAG 融合操作和动态修剪和读取技术。MTAG 仅关注图中重要的交互，可在情感分析和情感识别基准测试中实现最先进的性能，同时使用了显著更少的模型参数。

Oct, 2020

VTG-LLM：将时间戳知识整合到视频 LLMs 中以增强视频时间定位

基于 VTG 任务，本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集，其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务；其次，我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型，VTG-LLM，该模型能够有效地将时间戳知识与视觉标记结合起来，并且引入了一种轻量级、高性能的基于槽位的标记压缩方法，以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。

May, 2024

视觉语音识别中的多时序唇音记忆

本文提出了一种利用多时间点音频记忆的视觉语音识别方法，将音频信号与唇部运动相结合，实践证明此方法在两个公共视觉语音识别数据集上取得了最新技术表现。

May, 2023

用于长距离视频理解的时间聚合表示

本文提出了一种灵活的多粒度时间聚合框架，用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测，并在 Breakfast，50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果，且兼容于视频分割和动作识别。

Jun, 2020

GaitGS: 步态识别中粒度和跨度维度的时间特征学习

本论文提出了一种名为 GaitGS 的新型框架，利用多颗粒度和跨度、多个时间特征提取器和其他模块来进行步态识别，并在三个流行的数据集上进行了广泛的实验，证明了我们方法的最新性能。

May, 2023

双向时序图的目标感知聚合用于视频字幕生成

本文提出了一种新的视频字幕生成方法 OA-BTG，该方法利用基于目标感知聚合和双向时间图 (OA-BTG) 来捕捉视频中显著目标的详细时间动态，从而学习具有区分性的时空表示。实验表明 OA-BTG 在 BLEU@4、METEOR 和 CIDEr 指标上达到了最先进的性能。

Jun, 2019

可靠的时空体素用于多模态测试时适应

提出了一种多模态测试时间适应（MM-TTA）方法，通过在线利用互补的多模态输入对未标记的目标领域进行模型适应。提出的 Latte 方法利用可靠的跨模态时空对应关系实现了多模态三维分割，并在空间和时间邻域中寻找可靠和一致的预测进行交叉模态学习，取得了与以前的 MM-TTA 或 TTA 方法相比在三个不同的 MM-TTA 基准测试上表现出的最先进性能。

Mar, 2024

加强视频语言表示的结构时空对齐

通过精细化的结构化时空对齐学习方法（Finsta），将输入的文本和视频以细粒度场景图（SG）结构表示，进而统一为整体性 SG（HSG），从而加强语义和时序的视频 - 语言对齐，提高大规模视频 - 语言模型（VLMs）在各种下游任务中的性能。

Jun, 2024

面向弱监督时空语言联系的细粒度语义对齐网络

本篇论文提出了一种新的候选不受限制的方法 ——Fine-grained Semantic Alignment Network（FSAN），用于弱监督的 Temporal Language Grounding 任务，在两个广泛使用的基准测试中取得了最先进的性能。

Oct, 2022