AAAIJan, 2024

针对视频中的时间句子定位的偏见 - 冲突样本合成和对抗性消除偏见策略

TL;DR通过使用偏置冲突样本合成和对抗性去偏策略(BSSARD),本研究提出了一种动态生成偏置冲突样本的方法,利用单模态特征与目标时刻的时间位置之间的潜在错综复杂的相关性。通过对抗性训练,偏置生成器不断引入偏见并生成偏置冲突样本来欺骗基准模型,同时基准模型不断消除引入的偏见,这需要其模拟多模态对齐信息。BSSARD 能够覆盖大多数耦合关系并同时破坏语言和视觉偏见。对 Charades-CD 和 ActivityNet-CD 的大量实验证明了 BSSARD 的有希望的去偏能力。