Oct, 2024

面向低资源自动语音识别的多语言多模态模型的参数高效适应

TL;DR本研究针对低资源语言的自动语音识别(ASR)中标注数据稀缺的问题,探讨了如何通过结合参数高效微调与文本适应方法来提升性能。采用多语言多模态模型SeamlessM4T,该方法能够有效利用未标注文本,且在无标记语音的零样本设定中实现了最高17%的错误率减少,展示了跨语言迁移的潜力。