Jun, 2024

优化驾驶视觉问答模型:弥合人类与机器注意力模式的差距

TL;DR该研究通过比较人类和 VQA 模型在回答与驾驶相关的问题时的注意模式,揭示了观察对象方面的差异。我们提出了一种整合过滤器来优化模型的注意机制的方法,优先考虑相关对象并提高准确性。通过将 LXMERT 模型应用于案例研究,我们比较了预训练模型和整合过滤器模型以及来自 NuImages 数据集的人类答案的注意模式,从而深入了解特征优先级的问题。我们使用一个主观评分框架评估了这些模型,结果显示特征编码器过滤器的整合提高了 VQA 模型的性能,优化了其注意机制。