Jul, 2024
视频问题回答的组合推理: 使用视频对齐和答案聚合
Align and Aggregate: Compositional Reasoning with Video Alignment and
Answer Aggregation for Video Question-Answering
TL;DR我们提出了一个模型无关的视频对齐和答案聚合框架(VA^3),通过整合视频对齐器和答案聚合器模块来增强现有的视觉问答方法的组合一致性和准确性,实验证明我们的框架提高了现有方法的组合一致性和准确性,大大提升了可解释性。