面向低资源自动语音识别的多语言多模态模型的参数高效适应

Oct, 2024

Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR

Abhishek Gupta, Amruta Parulekar, Sameep Chattopadhyay, Preethi Jyothi

TL;DR本研究针对低资源语言的自动语音识别（ASR）中标注数据稀缺的问题，探讨了如何通过结合参数高效微调与文本适应方法来提升性能。采用多语言多模态模型SeamlessM4T，该方法能够有效利用未标注文本，且在无标记语音的零样本设定中实现了最高17%的错误率减少，展示了跨语言迁移的潜力。

Abstract

Automatic Speech Recognition (ASR) for Low-resource Languages remains a challenge due to the scarcity of labeled training data. Parameter-efficie