基于时空异构图学习的高级音视频日志化技术

CVPRJun, 2023

基于时空异构图学习的高级音视频日志化技术

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

Kyle Min

TL;DR本研究文章介绍我们的新方法 STHG，采用统一的异构图学习框架对视频中的所有说话者进行建模，应用于 Ego4D Challenge 2023 的 Audio-Visual Diarization 任务，取得了 61.1% 的 DER 表现，并在该挑战赛中获得了第一名，同时展示了将该方法应用于 Speech Transcription 任务时表现优异的结果。

Abstract

This report introduces our novel method named STHG for the Audio-Visual Diarization task of the ego4d challenge 2023. Our key innovation is that we model all the speakers in a video using a single, unified heterogeneous graph learning framework. Unlike previous approaches that require

audio-visual diarization ego4d challenge 2023 heterogeneous graph learning speech recognition system speech transcription

发现论文，激发创造

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

重叠感知的端到端监督层次图聚类用于发言人分离

通过图神经网络的端到端监督分层聚类算法（E-SHARC）可以改善目前状态下的说话人辨别系统，特别是在重叠语音区域的预测上。

Jan, 2024

自动化时空图对比学习

本文介绍了一种 Automated Spatio-Temporal graph contrastive learning（AutoST）的方法，在考虑到多视图数据源的情况下，结合异构图神经架构，通过参数化的对比视图生成器来设计自动的时空增强方案，以解决数据噪声、分布异质性等问题，并进行对比实验以验证其效果。

May, 2023

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

通过超图学习利用时空数据进行睡眠阶段分类

本文提出了使用超图对睡眠阶段进行分类的动态学习框架 STHL，它能够同时考虑多模态数据的异质性、互动性以及时空相关性，相比现有模型，在睡眠阶段分类任务中具有更好的性能。

Sep, 2023

基于 Transformer 的异质显著图表示学习用于高光谱和 LiDAR 数据的多模态融合分类

通过结合多模态图像，本文提出了一种基于 Transformer 的异质显著图形表示（THSGR）方法，以实现更加细致、准确的地表覆盖解释，并且在多个基准数据集上展示了该方法的性能。

Nov, 2023

基于 Bi-LSTM 评分和凝聚层次聚类 (AHC) 的说话人分离相似度测量

本文提出了一种基于双向 LSTM 网络的语音分割与边界检测方法，用于解决多个人同时说话时 PLDA 算法无法考虑语音结构，容易出错的问题，实验表明该方法在 ICSI 会议语音数据集上的 Diarization Error Rate 可降低至 34.80%。

May, 2022

增强 2D-TAN: 一种用于人类中心的时空视频定位的两阶段方法

本研究提出了一种有效的两阶段方法，利用增强的 2D-TAN 对文本描述进行时间上的定位，同时使用 MDETR 模型生成每帧包围盒并设计了一组手工规则，筛选出与定位短语最匹配的包围盒。

Jun, 2021