Sep, 2023

音频差异学习用于音频字幕

TL;DR该研究介绍了一种新颖的训练范式,音频差异学习,用于改进音频字幕生成。该方法通过创建一个保留音频关系的特征表示空间,能够生成详细描绘复杂音频信息的字幕。实验证明,该方法在 Clotho 和 ESC50 数据集上,相较传统方法,SPIDEr 分数提高了 7%。