关键词visual question answer
搜索结果 - 2
- AAAI运用多层对比学习在 VQA 中实现更加忠实的自然语言解释
为了解决 VQA-NLE 模型在逻辑推理、事实一致性和语义扰动不敏感性等方面存在的问题,我们提出了一种基于自监督多层对比学习的自然语言解释模型 (MCLE),通过提取具有辨别性的特征并将解释的特征空间与视觉问题和答案对齐,生成更一致的解释。 - 因果关系是你所需要的
本文提出了 Causal Graph Routing(CGR)框架,通过干预机制揭示数据中隐藏的因果关系,并在计算机视觉和自然语言处理领域的任务中超过当前最先进方法,具有建立具有因果性的预训练大规模模型的潜力,以在更广泛的语义空间内提高机器