COLINGAug, 2022

神经符号视觉对话

TL;DR提出神经符号视觉对话(NSVD)方法,将深度学习和符号程序执行结合起来,用于多轮基于视觉的推理,并取得了显著的性能提升。在使用更严格的评估方案时,我们的最佳模型在 CLEVR-Dialog 数据集上实现了 99.72%的准确度,在总体上比现有技术提高了 10%以上。我们的结果表明,神经符号模型的平均故障轮数更高,对不完整的对话历史记录更稳健,并在长度高达训练期间三倍的对话框架以及未见过的问题类型和场景上表现出更好的泛化能力。