Sep, 2023

口语语种识别的多模态建模

TL;DR使用多模态元数据进行语种识别,证明视频标题、描述和地理位置等元数据对语种识别的贡献,并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果,并进行了基于模态的贡献度分析。