- OMG-LLaVA:图像层、对象层、像素层推理和理解的桥梁
提出了一种新颖的 OMG-LLaVA 框架,将强大的像素级视觉理解与推理能力相结合,接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令,并基于视觉信息提供文本响应和像素级分割 - 探索令牌偏差:大型语言模型尚未成为真正的推理者
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬 - ACL活在当下:大型语言模型能否把握同时推理?
本研究介绍了 CoTempQA,一个包含四个共时场景的 QA 基准数据集,用于评估大型语言模型的共时理解和推理能力,发现当前模型在 CoTempQA 任务上表现明显低于人类水平,甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索,发现 - LINGOLY:一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试
通过 LingOly 基准测试,我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力,并发现在没有记忆的情况下,当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。
- GameBench:评估 LLM 代理的战略推理能力
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
- LLM 不是智能思考者:引入数学主题树基准评估来全面评估 LLMs
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了 1,958 个关于 - ACCORD: 缩小常识可测性差距
通过受控的多跳反事实,我们提出了一个框架和基准套件 $ exttt {ACCORD}$,用于解开大规模语言模型(LLMs)的常识基础和推理能力。通过引入形式化元素到常识推理中,$ exttt {ACCORD}$ 可以明确控制和量化推理复杂性 - LLM-Modulo 框架下的强健计划:旅行计划案例研究
大语言模型在旅行规划领域有着显著的实际应用,通过 LLM 模块化框架的操作,对 LLMs 的推理能力进行改进,并在基线性能上取得了 4.6 倍的提升。
- 大型语言模型中的跨域对齐揭示出人类类似的模式
本文通过行为研究,评估大型语言模型(LLMs)的概念化和推理能力,使用跨领域映射任务并分析模型的响应,结果显示模型的表示和行为与人类相似。
- 关于为主动大型语言模型提供反应提示的脆弱基础
通过对输入提示的系统变化进行敏感性分析,我们发现 LLMs 的性能受到例示 - 查询相似度的影响,并且推理能力源于近似检索,而非内在推理能力。
- 关于利用生物学问题的大型语言模型的推理能力和可访问性的调查
本文讨论了过去十年在生物医学和大型语言模型方面取得的进展,还讨论了自然语言处理技术和工具如何与生物医学相结合。最后,通过引入一系列新的问题和提示,本文旨在对去年一项调查的结果进行扩展,以 quantifying 大型语言模型的推理能力改进以 - 优化语言模型的推理能力的弱监督方法
利用自我强化机制提升大型语言模型(LLMs)的推理能力,并通过一个弱监督基准测试集 extsc {PuzzleBen},含有 25,147 个复杂问题以及人工生成的解释,展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。
- MAmmoTH2:网络中的指令扩展
我们提出了一种新的方法,通过从预训练的网络语料库中高效地收集 1000 万条自然存在的指导数据来增强大型语言模型 (LLMs) 的推理能力,从而显著提高了模型在推理基准测试中的性能,并在多个推理和聊天机器人基准测试中获得了最先进的性能。
- 自我完善指导调优用于对齐语言模型中的推理
我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学 - CVPR大规模语言模型在多模态搜索中的应用
多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与 - 通过解释解决方案程序提取 LLM 中的算法推理
通过解释解决方案来提取大型语言模型的推理能力,并将其应用于解决有竞争水平的编程挑战,从而实现了更高的解决率。
- ODA: 以观测为驱动的智能体用于集成 LLMs 和知识图谱
通过引入基于观察的智能体(ODA)框架,本研究旨在解决将大型语言模型(LLMs)和知识图谱(KGs)结合的问题,以提高 KG 的推理能力,并在多个数据集中展示了现实世界性能的显著提升(12.87% 和 8.9%)
- RAR-b: 推理作为检索的基准
通过将推理任务转换为检索任务,我们发现,即使没有针对推理级别的语言理解进行专门训练,目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任,特别是在推理密集型任务中。然而,最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力,突 - CVPR利用自我训练大型语言模型改进视觉程序合成与视觉强化
利用交互式经验反馈改进大规模语言模型的视觉程序合成能力,通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号,将语言模型作为一种策略,并应用增强的自训练,显示出在对象检测、复合视觉问答和图像 - 文本检索方面,经过自训练的语言模型在 - LM2: 简约语言模型社区解决复杂推理
该研究提出了 LM2 模型,通过将问题分解为多个子问题并利用协调的语言模型进行求解和验证,以提高大型语言模型的复杂多步推理能力。