Oct, 2023

自动广告II:续集--电影音频描述中的受众、时间和内容

TL;DR为了解决电影音频描述中存在的挑战,如适应对话存在的间隙、通过角色名称引用以及整体上帮助理解剧情,我们开发了一个新模型来自动生成电影音频描述,使用了帧的CLIP视觉特征、演职员表和对话的时间位置,并解决了'谁'、'何时'和'什么'三个问题,即通过引入角色库实现更好地命名、通过对时间间隔及其相邻内容的视觉特征进行模型选择以决定是否生成音频描述,以及通过视觉特征的交叉注意力在此任务中实现了一个新的视觉-语言模型,展示了与先前架构相比在音频描述生成方面的改进。