- ECCV借助推理能力强化 3D 视觉定位
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由 - 基于步骤误差控制的 DPO:利用逐步误差提升数学推理
提出了一种名为 Step-Controlled DPO (SCDPO) 的方法,在大型语言模型 (LLM) 上应用全自动逐步错误监督,从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案,通过在 DPO 训练中采用负样本,S - 探究大型语言模型如何利用内部知识进行复杂推理
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。 - AI 原生记忆:从 LLMs 通往 AGI 的路径
通过集成记忆,我们设想了从大型语言模型(LLMs)到人工通用智能(AGI)的一种路径。我们认为 AGI 应该是一个 LLM 作为核心处理器的系统,其中除了原始数据外,该系统的记忆还可以存储推理过程中得出的大量重要结论。相比仅处理原始数据的检 - 评估大型语言模型在理解基数方向上的能力
探讨大型语言模型在基于基数方向的推理能力方面的研究,通过创建两个数据集,发现尽管在简单数据集中大型语言模型表现良好,但在更复杂的数据集中,即使温度设置为零,没有任何大型语言模型能够可靠地确定正确的基数方向。
- CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力
通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力,研究发现 LLMs 在此方面仍有改进空间。
- 体育智能:通过问题回答从文本到视频评估语言模型对体育理解能力
通过对主流大型语言模型在各种体育任务上进行广泛评估,我们揭示了自然语言处理中体育理解的关键挑战,并提出了一个基于现有体育数据集的全面概述的新基准,以帮助确定未来的研究优先事项。
- Prism: 一个解耦和评估 VLM 能力的框架
Prism 是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于 - 神经符号训练用于空间语言推理
通过使用神经符号技术对语言模型进行培训,可以利用推理的逻辑规则作为约束,并为模型提供额外的监督来源,以弥补由于无法达到所需的抽象水平而在未观察到的复杂输入组合中难以提供解决方案的问题。我们聚焦于文本上的空间推理这一具有挑战性的问题,通过在多 - 长上下文语言模型是否能包含检索、RAG、SQL 等功能?
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时 - 讨论和论证的一阶逻辑平等推理的讨论图语义
我们通过对一阶逻辑(带等号)公式的语义进行自顶向下的表述,解决当前对于一般讨论和争论模型缺乏正式推理框架的问题。
- 当推理遇上信息聚合:体育叙事案例研究
综合真实 NBA 篮球数据,我们提出了一种名为 SportsGen 的新方法,用于综合比赛叙述,以严谨评估复杂情景下 LLMs 的推理能力,结果表明 GPT-4o 等大多数模型常因频繁的得分模式而不能准确汇总篮球比分,而开源模型如 Llam - 优化稀疏通信拓扑的多智体辩论
多代理辩论通过稀疏通信拓扑可以在大大降低计算成本的同时实现相当或更高的性能,扩展至多模态推理和对齐标注任务,强调了通信连通性对于增强 “心智集合体” 方法的效率和有效性的重要性。
- 视觉草稿本:多模态语言模型的可视化思维链
本研究介绍了 Sketchpad 框架,通过为多模态语言模型提供视觉草图板和绘图工具,使其在推理过程中绘制视觉成果,从而显著改善任务表现。
- 嵌入中藏着什么?无论是什么嵌入,玫瑰都会闻起来一样香吗?
大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力,被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解,即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”,这对自然语言处理、计算机视 - 利用层次化聚合树增强长期记忆的检索增强生成
大型语言模型的上下文能力有限,通过使用分层聚合树内存结构可以在长对话中进行推理,提高对话的连贯性和摘要质量,同时避免了参数呈指数级增长。
- Husky 多步推理的统一开源语言代理
Husky 是一个开放源代码的语言代理(language agent),通过在统一的行动空间上进行推理来解决涉及数值、表格和基于知识的复杂任务,它的实验结果显示在 14 个评估数据集上优于先前的语言代理,并且在混合工具推理方面甚至能与 GP - 推理的流程:具有发散思维的 LLM 策略的高效训练
通过 Flow of Reasoning(FoR)这一高效的 LLM 训练方法,能够在很少的训练数据的情况下,发现多样化高质量的解决方案,并且在三项任务中(包括具身化推理、数学谜题解决和逻辑推理)显著超越当前最先进的方法。
- 面向使用 LLMs 的因果业务流程推理的基准
利用大型语言模型 (LLMs) 来推动组织效率和自动化任务,在本研究中创建了一个基准来评估 LLMs 在推理业务活动的因果和过程视角方面的能力,并应用 LLMs 的能力进行 BP^C 的推理,以用于流程干预和流程改进。
- 上下文融合增强图像模糊鲁棒性
哺乳动物的大脑通过整合特定感官模式的脑区的信息来处理复杂推理,从而提高鲁棒性和泛化能力。我们开发了一个融合模型,结合了在 Imagenet 和 Places365 上训练的 CNN 的背景和前景特征,测试了它对人可感知变化的抵抗能力,并在