从视觉信号探索空间常识中未被书写的事物
本文引入了一个预测生成空间布局的任务,通过神经网络模型从图像和结构化文本中学习, 在普遍性场景下,模型表现出了可靠的预测结果,且具有从先前未见过的对象中输出准确的空间预测的能力。
Nov, 2017
大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉 - 语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
Sep, 2022
本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势,对比了空间关系的统计信息并在常识推理任务中进行验证实验,结果表明该方法优于现有最先进的方法。
Oct, 2022
利用外部常识知识库将模型行为与人类知识对齐,并通过多层次可视化和交互式模型探索和编辑,帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。
Jul, 2023
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
研究利用多模态模型来学习语言的局限性,提出了两个评估任务来衡量语言模型在视觉常识知识方面的表现。结果发现,基于视觉文本数据的多模态模型和单模态模型在视觉常识知识方面表现不显著不同。
May, 2022
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能,减少了不必要的幻觉,并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验,验证了我们提出的框架明显的性能改进。
Apr, 2024