Aug, 2021

一种基于编码器 - 解码器的音频字幕系统,具有迁移学习和强化学习

TL;DR本文提出一种使用编码器 - 解码器架构的音频标题系统,并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中,可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三,并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明,提出的技术显着提高了评估指标的得分,但强化学习可能对生成的标题质量产生不利影响。