audio-visual dataset | BriefGPT

关键词audio-visual dataset

搜索结果 - 10

AVicuna: 基于交错器和上下文边界对齐的音视频 LLM 用于时间参考对话
通过引入包括超过 114,000 个未修剪视频的 PU-VALOR 以及具有精确时间标记的 AVicuna 框架和 A5-222K 数据集，我们研究了 Temporal Referential Dialogue，特别是在未修剪视频中，AVi
PDF3 months ago
交通视频中异常检测的音视频数据集和方法
介绍了第一个用于真实场景交通异常检测的音频 - 视觉数据集 MAVAD，并提出了一种名为 AVACA 的新方法，它通过交叉注意提取视频序列中的视觉和音频特征来检测异常。演示了音频的加入将 AVACA 方法提高了 5.2％的性能，并评估了图像
PDFa year ago
一种多用途的音频 - 视觉语料库，用于多模式波斯语语音识别：Arman-AV 数据集
本文提出一个新的适用于波斯语的多用途视听数据集，包括近 220 小时的视频，可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时，本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素（一个音素的可视对应
PDFa year ago
AAAIAVCAffe：面向远程办公的大规模认知负荷和情感的音视频数据集
AVCAffe 是一个由认知负荷和情感属性组成的第一个音频 - 视觉数据集，由 18 个不同国家的 106 名参与者在远程工作中协作完成认知任务时录制而成，涵盖了情感、认知负荷属性和工作远程化的影响。
PDF2 years ago
Swin Transformer 面部表情识别
本论文通过引入 Swin transformer，提出一种融合视觉、时间和音频模态的多模态方法用于自然环境下的面部表情识别，并在 Aff-Wild2 数据集上进行了实验证明其有效性。
PDF2 years ago
VGGSound：大规模音频视觉数据集
利用计算机视觉技术收集大规模无噪声标签的音频 - 视觉数据集，用于训练和评估音频识别模型。使用图像分类算法，过滤环境噪声，创建 VGGSound 数据集，并研究了各种卷积神经网络架构和聚合方法，以建立新数据集的音频识别基线。
PDF4 years ago
使用跨模态自监督进行解缠语音嵌入
本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了
PDF4 years ago
音频和视觉信号的跨模态映射的深度潜在空间学习
该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验
PDF5 years ago
AVA-ActiveSpeaker: 一份用于活动说话人检测的音频 - 视觉数据集
本文介绍了 AVA-ActiveSpeaker 数据集，并提出了一种新的视听方法用于活跃演讲者检测，并分析其性能和数据集的贡献。
PDF5 years ago
跨模态监督学习视频中的活动发言者检测
本文利用音频监督视频中活跃讲话者检测的学习，通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类，学习人特定的模型以及在线适应性的改进，利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习，不需要
PDF8 years ago