CVPRMay, 2024

MICap: 一个统一的身份感知电影描述模型

TL;DR本文介绍了一种新的单阶段方法,可以在给定带空白的字幕时无缝切换到基于身份感知的字幕生成或填空任务。我们使用一个共享自回归解码器的模型(MICap),该模型在 FITB 和全字幕生成目标的训练中受益,而编码器可以根据需要利用或忽略输入中带有空白的字幕。此外,我们还引入了一种名为 iSPICE 的字幕评估指标,该指标专注于通过中间场景图创建的身份元组,对于身份感知的字幕生成存在的一个挑战是缺乏捕捉人物身份之间细微差异的度量标准。最后,我们在大规模电影描述挑战(LSMDC)上评估 MICap,其中显示 FITB 准确性提高了 4.2%,传统字幕生成指标增加了 1-2%。