- ECCV借助推理能力强化 3D 视觉定位
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由 - 消除 LLM 幻觉需要重新思考泛化
通过广泛系统实验,我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强 LLMs,可以轻松地记忆大数据集,为去除幻觉设计了 Lamini-1 模型。
- 通过基于实景的学习掌握语言结构
本文提出了基于语言结构的机器学习任务,并通过三种方案展示了其潜力和可行性,包括通过视觉基现学习语法结构,通过执行感知方法映射句子到语义结构,并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。
- 多模式大型语言模型中的即插即用推理基础
插拔式推理引擎 P2G 在多模态大型语言模型中的可视化推理任务表现优异,特别是在高分辨率图像中的文本和对象细节捕捉方面,与 GPT-4V 的性能相当,为模型扩展之外的有前景的替代方案。
- 通过逆事实扰动将语言计划与演示相结合的基础
利用大型语言模型对物理领域中的常识推理进行基础性指导和解决工作,通过任务结构和约束的搜索,使用人类示范和模拟干扰生成覆盖训练数据集,并通过解释性学习方法来提高模仿学习的可解释性和反应性。
- ReGround: 提升文本和空间定位的无成本方法
通过改变网络架构,将分布式注意力和交叉注意力从串行变为并行,可以显著减少文本和空间对齐之间的权衡。
- 从多模态输入中获取语言知识
利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率 - 基于综合切分对大型语言模型进行落地:地鼠模型
用全貌分割为基础,GROUNDHOG 将多模态大型语言模型连接到实体标记,从而优化了语言到对象的关联,提升了视觉理解和诊断能力。
- GRAFFORD: 一份基准数据集,用于测试语言和视觉模型对物体功能的知识
通过研究预训练语言模型和预训练视觉 - 语言模型对对象适用性的认知,我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力,并且预训练视觉 - 语言模型不一定能有效捕捉对象适用性。通过少样本微调,我们展示了在预训练语言模型和预训 - 从人工智能和认知科学的视角进行理论研究
探索了地基的概念,从认知科学和机器学习的角度,对地基的复杂性、在协作代理中的重要性以及两个领域中地基方法的相似性和差异进行了研究。研究了定制地基任务的神经符号方法的潜力,展示了它们如何更全面地处理地基。最后,讨论了地基进一步探索和发展的领域 - 人工智能的基础
智能的核心功能是基于感性经验和抽象知识与内部对真实世界的表达进行连接。这篇论文试图系统地研究这个问题。
- 右边” 在哪儿?:揭示视觉语言导航模型的限制
通过一系列的简单遮盖实验,揭示了某些高性能模型仅依赖于指令的名词标记,并提出了两种训练方法来缓解这个问题。
- EMNLP无所依托的 LLMs 中的知觉结构:抽象性和主观性在颜色语言中的影响
语言理解中的基础是一个活跃的研究领域。以颜色感知和颜色语言为研究基础,通过实证研究发现,颜色空间和语言模型定义的特征空间之间存在相当大的一致性。通过收集包含近 100 万个颜色及其描述的大规模数据集,进行两种对齐方式的实证分析:(i)跨空间 - 大型语言模型真正地进行了多好的接地?
大型语言模型的可靠性和控制性方面的关键问题是如何通过知识增强模型进行接地,该研究提出了一种严格的接地定义,并引入新的数据集和接地度量标准来评估该定义,通过实验对 13 种不同大小和训练方法的大型语言模型进行研究,以提供改进接地能力的见解。
- 大型语言模型是假定的语义基础还是猜测?
现有的大型语言模型在构建共性时,假设存在共同基础,而无需使用对话行为,因此需要进一步研究人机交互中的共性问题。
- 火山:通过自反馈引导修订来减轻多模态幻觉
通过自我反馈引导修订模型,Volcano 可以有效降低多模态幻觉,并在多项基准测试中达到最新水平,通过定性分析,我们展示了 Volcano 反馈信息与初始响应相比,更好地与图像对应。
- EMNLPGROOViST:一种视觉叙事中对物体进行定位的度量
该论文提出了一种评估图像序列生成的故事质量的方法,并针对视觉扎根度进行了分析和度量,提出了一种模块化设计的评估工具 GROOViST,该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。
- EMNLP基于符号规划和代码生成的实地对话
使用大型语言模型与符号规划器和基于代码执行的系统组成的模块化可解释的对话系统,在处理任务导向对话中解决了大型语言模型难于引导到任务目标和处理新颖基础的问题,并在具有抽象散点图的协作参考解决任务中显著优于之前的最新技术,包括在最具挑战性的情境 - EMNLP基于方法的地基和全面发展:跨模态和跨语言连接研究的一种方法论
通过建立一种方法论框架,对比训练在不同输入模态下的模型,本文研究了提供比仅有文本更丰富的输入来源对自然语言处理系统的影响,发现交叉模态接地、跨语言接地和未接地的模型之间存在质的差异,这从整体数据集层面和具体词表示层面衡量了模型的表现。
- Ferret: 任意粒度引用和定位任何内容
我们介绍了 Ferret,这是一个新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间引用,并准确地确定开放词汇的描述。