ACLJun, 2023

OpenSR: 通过维护多模态对齐实现开放式语音识别

TL;DR本研究提出 OpenSR,通过维护来自高资源领域的未标记多媒体话语中音位空间中的多模态对齐,实现零样例模态转换,进而实现应用于不同模态的模型训练并采用基于聚类的提示调整策略来处理新域话语中的领域移位,结果表明 OpenSR 在三种不同设置下实现了模态转换,并在音视频语音识别和唇语识别方面取得了最先进的性能。