无监督可迁移模态视频精彩片段检测与表示激活序列学习

Mar, 2024

无监督可迁移模态视频精彩片段检测与表示激活序列学习

Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning

Tingtian Li, Zixun Sun, Xinyu Xiao

TL;DR通过跨模态感知和自重建任务，在视觉 - 音频对数据中学习视觉 - 音频语义表示的网络，并通过表示激活序列学习模块（RASL）和对称对比学习模块（SCL）连接视觉模态与音频模态，提出了一种用于无监督高光检测的模型。在预训练期间，进行了掩码特征向量序列（FVS）重建的辅助任务，以增强表示。实验结果表明，所提出的框架相对于其他最先进的方法具有优越性能。

Abstract

Identifying highlight moments of raw video materials is crucial for improving the efficiency of editing videos that are pervasive on internet platforms. However, the extensive work of manually labeling footage has created obstacles to applying supervised methods to videos of unseen cat

highlight moments unsupervised highlight detection cross-modal perception representation activation sequence learning visual-audio semantics

发现论文，激发创造

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。

Dec, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

无监督对比式视频 - 语音表征学习 —— 超声波应用

本文提出了一种用于医学图像处理的自监督学习方法，该方法可以从多通道超声视频和相应的言语音频数据中学习有意义的图像特征，评价结果表明该方法可以用于标准平面检测和视线预测等向下流任务。

Aug, 2020

端到端音视频语音识别的模态注意力

该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法，在清洁和嘈杂的条件下均能获得更好的识别性能，可以轻松地推广到其他多模态任务中。

Nov, 2018

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

利用单模态自监督学习实现多模态音视频语音识别

本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别，该方法在实验中表现出良好的效果，取得了相对改善 30% 的优越结果。

Feb, 2022

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的 ZSL 非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测 ' 主导 ' 模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018