Sep, 2023

使用音频和文本共享的潜在表示进行高效音频字幕生成

TL;DR通过提出预训练的Transformer架构、数据增强技术和参数高效的推理算法,研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题,通过语义对齐和类似度计算等方法,提升性能并减少模型复杂度。