Sep, 2023
使用音频和文本共享的潜在表示进行高效音频字幕生成
Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation
TL;DR通过提出预训练的Transformer架构、数据增强技术和参数高效的推理算法,研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题,通过语义对齐和类似度计算等方法,提升性能并减少模型复杂度。