- AI 原生记忆:从 LLMs 通往 AGI 的路径
通过集成记忆,我们设想了从大型语言模型(LLMs)到人工通用智能(AGI)的一种路径。我们认为 AGI 应该是一个 LLM 作为核心处理器的系统,其中除了原始数据外,该系统的记忆还可以存储推理过程中得出的大量重要结论。相比仅处理原始数据的检 - 评估大型语言模型在理解基数方向上的能力
探讨大型语言模型在基于基数方向的推理能力方面的研究,通过创建两个数据集,发现尽管在简单数据集中大型语言模型表现良好,但在更复杂的数据集中,即使温度设置为零,没有任何大型语言模型能够可靠地确定正确的基数方向。
- CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力
通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力,研究发现 LLMs 在此方面仍有改进空间。
- 体育智能:通过问题回答从文本到视频评估语言模型对体育理解能力
通过对主流大型语言模型在各种体育任务上进行广泛评估,我们揭示了自然语言处理中体育理解的关键挑战,并提出了一个基于现有体育数据集的全面概述的新基准,以帮助确定未来的研究优先事项。
- Prism: 一个解耦和评估 VLM 能力的框架
Prism 是一个创新的框架,旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题,通过将感知和推理分离为两个不同的阶段,实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于 - 神经符号训练用于空间语言推理
通过使用神经符号技术对语言模型进行培训,可以利用推理的逻辑规则作为约束,并为模型提供额外的监督来源,以弥补由于无法达到所需的抽象水平而在未观察到的复杂输入组合中难以提供解决方案的问题。我们聚焦于文本上的空间推理这一具有挑战性的问题,通过在多 - 长上下文语言模型是否能包含检索、RAG、SQL 等功能?
基于长上下文语言模型(LCLMs)的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能,发现它们能与最先进的检索系统和 RAG 系统媲美,但在像 SQL 一样需要组合推理的领域仍存在挑战,提示着需要继续研究随着上下文长度增长时 - 讨论和论证的一阶逻辑平等推理的讨论图语义
我们通过对一阶逻辑(带等号)公式的语义进行自顶向下的表述,解决当前对于一般讨论和争论模型缺乏正式推理框架的问题。
- 当推理遇上信息聚合:体育叙事案例研究
综合真实 NBA 篮球数据,我们提出了一种名为 SportsGen 的新方法,用于综合比赛叙述,以严谨评估复杂情景下 LLMs 的推理能力,结果表明 GPT-4o 等大多数模型常因频繁的得分模式而不能准确汇总篮球比分,而开源模型如 Llam - 优化稀疏通信拓扑的多智体辩论
多代理辩论通过稀疏通信拓扑可以在大大降低计算成本的同时实现相当或更高的性能,扩展至多模态推理和对齐标注任务,强调了通信连通性对于增强 “心智集合体” 方法的效率和有效性的重要性。
- 视觉草稿本:多模态语言模型的可视化思维链
本研究介绍了 Sketchpad 框架,通过为多模态语言模型提供视觉草图板和绘图工具,使其在推理过程中绘制视觉成果,从而显著改善任务表现。
- 嵌入中藏着什么?无论是什么嵌入,玫瑰都会闻起来一样香吗?
大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力,被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解,即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”,这对自然语言处理、计算机视 - 利用层次化聚合树增强长期记忆的检索增强生成
大型语言模型的上下文能力有限,通过使用分层聚合树内存结构可以在长对话中进行推理,提高对话的连贯性和摘要质量,同时避免了参数呈指数级增长。
- Husky 多步推理的统一开源语言代理
Husky 是一个开放源代码的语言代理(language agent),通过在统一的行动空间上进行推理来解决涉及数值、表格和基于知识的复杂任务,它的实验结果显示在 14 个评估数据集上优于先前的语言代理,并且在混合工具推理方面甚至能与 GP - 推理的流程:具有发散思维的 LLM 策略的高效训练
通过 Flow of Reasoning(FoR)这一高效的 LLM 训练方法,能够在很少的训练数据的情况下,发现多样化高质量的解决方案,并且在三项任务中(包括具身化推理、数学谜题解决和逻辑推理)显著超越当前最先进的方法。
- 面向使用 LLMs 的因果业务流程推理的基准
利用大型语言模型 (LLMs) 来推动组织效率和自动化任务,在本研究中创建了一个基准来评估 LLMs 在推理业务活动的因果和过程视角方面的能力,并应用 LLMs 的能力进行 BP^C 的推理,以用于流程干预和流程改进。
- 上下文融合增强图像模糊鲁棒性
哺乳动物的大脑通过整合特定感官模式的脑区的信息来处理复杂推理,从而提高鲁棒性和泛化能力。我们开发了一个融合模型,结合了在 Imagenet 和 Places365 上训练的 CNN 的背景和前景特征,测试了它对人可感知变化的抵抗能力,并在 - 关于仓库级代码编辑中推理的重要性
这项研究探讨了使用代码流畅的大型语言模型(LLMs)进行存储库级代码编辑的最新进展,着重解耦上下文检索的任务以评估其组件的优劣,并指出推理在上下文获取中提高准确性的作用,但仍无法确定其充分性及专用工具在该过程中的最终角色。
- ACLLLM 是古典还是非单调推理者?从通性中得到的教训
最近的关于 LLMs 推理的学术研究提供了令人印象深刻的表现和对机器生成或人类反馈的灵活适应的证据。非单调推理对于人类认知来说至关重要,用于在现实世界中进行导航,但仍然是一个具有挑战性但研究不足的任务。我们研究了七种最先进的 LLMs 在一 - ACLBi-Chainer:自动化大型语言模型双向链式推理
提出了一种双向链式方法 Bi-Chainer,通过动态切换至深度优先推理来解决单向链式方法在复杂逻辑问题中的低预测准确性和效率问题,并展示了在四个具有挑战性的逻辑推理数据集上,Bi-Chainer 相较于单向链式框架实现了可观的准确度提升。