Apr, 2024

LaSagnA: 语言化复杂查询段落助手

TL;DR最近的研究使得大型语言模型能够生成包括边界框和遮罩在内的详细感知结果。然而,这些语言模型存在两个限制,即无法处理查询中的多个目标以及无法识别图像中查询对象的缺失。本研究中,我们发现这些问题的主要原因是训练查询的复杂度不足。因此,我们定义了复杂查询的通用序列格式。然后,在当前流程中将语义分割任务纳入以满足训练数据的要求。此外,我们提出了三种新策略来有效地处理由所提出格式的直接集成而带来的挑战。我们的模型在处理复杂查询方面的有效性通过在闭集和开集语义分割数据集上与传统方法的可比较结果进行验证。此外,我们在推理和引用分割方面胜过了一系列大型语言模型,展示了我们模型的显著能力。我们在此 https URL 上发布了代码。