大规模 OWL 推理
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
提出了一种名为 Step-Controlled DPO (SCDPO) 的方法,在大型语言模型 (LLM) 上应用全自动逐步错误监督,从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案,通过在 DPO 训练中采用负样本,SCDPO 能够更好地调整模型以理解推理错误并输出准确的推理步骤。该方法在不同的 SFT 模型上得到了改进,并展示了其在识别数学解决方案错误方面的有效性。最终应用 SCDPO 于一个 InternLM2-20B 模型,取得了 88.5% 的 GSM8K 得分和 58.1% 的 MATH 得分,与所有其他开源 LLM 相媲美,展示了这一方法的巨大潜力。
Jun, 2024
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024
通过集成记忆,我们设想了从大型语言模型(LLMs)到人工通用智能(AGI)的一种路径。我们认为 AGI 应该是一个 LLM 作为核心处理器的系统,其中除了原始数据外,该系统的记忆还可以存储推理过程中得出的大量重要结论。相比仅处理原始数据的检索增强生成(RAG)方法,这种方法不仅更紧密地连接语义相关的信息,还可以在查询时简化复杂的推理。最终,每个个体 / 人都应该有自己的大型个人模型,即可以参数化和压缩所有类型记忆的深度神经网络模型(因此是 AI 本地的)。最后,我们讨论了 AI 本地记忆作为(主动的)参与、个性化、分发和社会在 AGI 时代的变革基础设施的巨大潜力,以及相应的隐私和安全挑战与初步解决方案。
Jun, 2024
探讨大型语言模型在基于基数方向的推理能力方面的研究,通过创建两个数据集,发现尽管在简单数据集中大型语言模型表现良好,但在更复杂的数据集中,即使温度设置为零,没有任何大型语言模型能够可靠地确定正确的基数方向。
Jun, 2024
通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力,研究发现 LLMs 在此方面仍有改进空间。
Jun, 2024
通过对主流大型语言模型在各种体育任务上进行广泛评估,我们揭示了自然语言处理中体育理解的关键挑战,并提出了一个基于现有体育数据集的全面概述的新基准,以帮助确定未来的研究优先事项。
Jun, 2024
Prism 是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于感知的精简 VLM 与专为推理而设计的强大 LLM 相结合,Prism 在一般的视觉语言任务中取得了卓越的结果,同时大幅减少了训练和操作成本的投入。在严格的多模式基准 MMStar 上,使用 vanilla 2B LLaVA 和免费获取的 GPT-3.5 配置 Prism,在性能上媲美比其大 10 倍的 VLM。
Jun, 2024
通过使用神经符号技术对语言模型进行培训,可以利用推理的逻辑规则作为约束,并为模型提供额外的监督来源,以弥补由于无法达到所需的抽象水平而在未观察到的复杂输入组合中难以提供解决方案的问题。我们聚焦于文本上的空间推理这一具有挑战性的问题,通过在多个语言模型上的多个基准测试中的结果验证了基于神经符号训练的有效领域转移假设。
Jun, 2024
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台,展示了随着模型能力的扩展,它们取代现有范式并解决新任务的潜力。
Jun, 2024