Apr, 2022

衡量视频问答的组成一致性

TL;DR本文开发了一个问题分解引擎,能将组合问题分解为子问题的有向无环图。使用问题图,我们评估了三个最先进的模型,并使用一组新的组成一致性指标。 我们发现,这些模型无法正确地通过大多数构图进行推理,或者依赖于错误推理来获得答案,并在中间的推理步骤失败时频繁地自相矛盾或达到高准确度。