Nov, 2024

DistinctAD:上下文中独特的音频描述生成

TL;DR本研究针对音频描述(AD)自动生成中存在的领域差距和上下文冗余问题,提出了一种名为DistinctAD的双阶段框架,重点强调生成的独特性。通过CLIP-AD适应策略和上下文期望最大化注意力模块,DistinctAD在多个基准测试中展现出优越的表现,显著提高了音频描述的质量和独特性。