Feb, 2023

基于视觉信息的低资源语言关键词检测和定位

TL;DR该研究探讨了使用视觉语音绑定(VGS)模型在语音中进行关键词定位的方法,聚焦于两个主要研究问题:(1)是否可以使用 VGS 模型进行关键词定位? (2)在真正的低资源环境中是否可以进行跨语言的关键词定位?论文提出并评估了四种本地化方法,精度为 57%。此外,该研究还收集和发布了 Yoruba 语言的口语字幕数据集供跨语言关键词本地化使用。该跨语言模型的实际关键词定位精度为 16%,并且进行初始化时可以通过在英语数据上预先训练的模型获得更好的性能。论文还提供了模型成功和失败模式的详细分析,并强调了在低资源环境中使用 VGS 模型进行关键词本地化的挑战。