Dec, 2023

音频 - 视觉微调的音频识别模型

TL;DR使用简单且快速的音频自我监督学习方法,并进行音视频模型的有指导微调,可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争,并且更为高效和快速。