Sep, 2023
口语语种识别的多模态建模
Multimodal Modeling For Spoken Language Identification
Shikhar Bharadwaj, Min Ma, Shikhar Vashishth, Ankur Bapna, Sriram Ganapathy...
TL;DR使用多模态元数据进行语种识别,证明视频标题、描述和地理位置等元数据对语种识别的贡献,并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果,并进行了基于模态的贡献度分析。