Feb, 2024

TV-TREES: 多模态蕴涵树用于神经符号化视频推理

TL;DR该论文提出了一种基于TV-TREES的多模态蕴涵树生成器,用于解决在电视剪辑等复杂多模态内容上的问答问题,通过生成简单前提与视频直接蕴涵的更高级结论之间的蕴涵关系树,实现可解释的联合模态推理;在TVQA数据集上进行的实验证实了该方法在全视频剪辑上的零样本性能,在黑盒方法上取得了最先进的可解释性和性能的最佳结合。