Jun, 2024

MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型

TL;DR该研究提出了一种正则化技术,可以从头开始训练视觉和视听语音识别模型,通过学习稀疏结构并减少训练时间,同时达到竞争性的识别结果。