Oct, 2022

使用 MixGen 和多级测试时间增强提高音频语言学习

TL;DR本文提出了两种新的数据增强方法:1)“音频 - 语言合成增强”(AL-MixGen)和 2)“多层测试时间增强”(Multi-TTA)用于音频和语言的学习;其中 Multi-TTA 可以将测试时间增强一般化到深度学习模型的多个层面。将这些方法引入到基线中,对于音频字幕生成任务可以获得 47.5 SPIDEr 的性能,相比基线提高了 18.2%,模型参数也小了 5 倍,同时在音频 - 文本检索中也超过了基线性能。