Mar, 2024

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

TL;DR通过提供高质量的人工注释,本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集,旨在支持多种音视频识别和理解任务,从而展示了 M^3AV 数据集的多样性和挑战性。