- 推理、规划和工具调用的新兴 AI 代理架构概览
这篇综述性论文研究了 AI 代理实现的最新进展,重点关注它们在实现需要增强推理、规划和工具执行能力的复杂目标方面的能力。该研究的主要目标是:a) 传达现有 AI 代理实现的当前能力和局限性,b) 分享我们在实际运行这些系统中获得的见解,c) - 大型语言模型中的不完全循环:演绎、归纳和演绎学习
通过研究不同类型的推理方式,以及对语言模型进行的指令跟随、少样本提示和指令推断实验,我们发现即使在一些最大的语言模型中,推理的方式仍然是非系统性的,不同的学习机制可能被看似相似的提示程序调用。
- 变换器在不同深度下能学到什么?对序列学习任务的案例研究
我们研究了具有不同深度的 transformer 架构的能力,通过设计了一套新的序列学习任务系统地评估和理解深度对 transformer 在记忆、推理、泛化和上下文泛化方面的影响。我们发现只有一个注意力层的 transformer 在记忆 - 推进具有偏好树的 LLM 推理通才
Eurus 是一套针对推理进行优化的大型语言模型,通过基于 Mistral-7B 和 CodeLlama-70B 的微调,在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比,Eurus - 从正确性学习,无需提示使 LLM 高效推理
利用多步骤推理方法和生成概率的置信度度量,我们提出了一种内在的自我纠正推理框架,无需人类反馈、外部工具和手工提示,在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能,同时减少了令牌的使用。
- 往往可解释的法律结果预测模型
本文提出了一种新颖的方法来识别法律结果预测模型使用的先例,并开发了法律先例的分类法,从而能够比较人类法官和我们的模型在依赖的不同类型的先例方面的差异。我们发现,虽然这些模型在预测结果方面表现良好,但它们对先例的使用与人类法官不同。
- Quiet-STaR: 语言模型能够自我教导在言语之前思考
在这篇论文中,作者提出了一种新方法 Quiet-STaR,通过使语言模型能够生成每个标记的理由来解释未来的文本,以改进其预测能力,并在不需要对这些任务进行微调的情况下,在多个基准测试中取得了显著的改进。
- TaskCLIP:扩展大型视觉语言模型以用于任务导向的物体检测
通过使用大规模视觉和语言模型(VLM)作为模型骨干,以及基于 Transformer 的校准器,我们提出了 TaskCLIP,一个两阶段的设计用于任务导向的目标检测,实验结果表明我们的方法优于当前最先进的 TOIST 模型,并且只需要一张 - RAT: 检索增强思维在长远生成中引发上下文感知推理
通过信息检索迭代修订思维链能够显著提高大型语言模型在长期生成任务中的推理和生成能力,同时极大地减少错误生成。
- GPT-4 是否能运行 DOOM?
GPT-4 能够运行和玩第一人称射击游戏《毁灭战士》(Doom),无需训练而依靠自身的推理和观察能力,但仍需要进一步研究才能与传统强化学习方法相媲美。希望通过此研究拓展基于大型语言模型的智能代理在视频游戏中的应用,并讨论了相关的伦理问题。
- 认知即所需 - 大型语言模型之上的人工智能下一层
近期关于应用于复杂实际知识工作的对话人工智能工具(如由大型语言模型驱动的聊天机器人)的研究表明,这些工具在推理和多步问题解决方面存在限制,且现有聊天机器人模拟浅层推理和理解,在问题复杂度增加时容易出错。本文介绍了认知人工智能(Cogniti - 语言模型在规模上是否能充当知识库?
大型语言模型在理解和生成复杂查询方面表现出了卓越的能力,但它们在存储、回忆和推理大规模结构化知识方面的有效性仍有待研究,本研究发现虽然大型语言模型有望作为大规模知识库灵活地检索和回答问题,但需要增强它们的推理能力以充分发挥潜力。
- CriticBench: LLMs 评估评论改正推理基准
利用 CriticBench 评估和解析 17 个大型语言模型在生成、批评和纠正推理(即 GQC 推理)中的性能,发现 GQC 能力呈线性关系,批评训练显著增强性能,校正效果因任务而异,逻辑导向任务更容易纠正,模型大小增加可以减少 GQC - 学会检查:释放大型语言模型中的自我纠正潜能
通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集,本研究旨在增强大型语言模型的自检能力,从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中,使用 “Step CoT Check” 提示进行微调的模 - 大型语言模型知识编辑中多跳事实捷径的探索研究
本研究系统地探究了大型语言模型(LLMs)利用直接连接的简化路径进行多跳知识推理的可能性,发现知识神经元的强度与多个知识段落中初始和终止实体的共现频率高度相关,以及擦除简化路径神经元可以减少多跳知识编辑中由于简化路径而引起的失败。
- 异构信息网络中基于大型语言模型的元结构发现
利用大规模语言模型的推理能力,提出了一种新颖的 REasoning meta-STRUCTure 搜索框架(ReStruct),该框架在进化过程中整合了 LLM 推理,通过将元结构编码为自然语言句子,并利用 LLM 的推理能力评估语义上可行 - PreAct: 预测未来在 ReAct 中增强智能体的规划能力
本文介绍了一种名为 PreAct 的代理框架,该框架将预测、推理和行动相结合,通过利用预测信息,基于大型语言模型的代理能够提供更多样化和战略性导向的推理,从而使代理执行复杂任务更加有效。实验结果表明,PreAct 在完成复杂任务方面优于 R - 层级状态空间模型用于连续序列到序列建模
基于原始感官数据的推理是一个普遍存在的问题,本研究提出了一种基于分层状态空间模型(HiSS)的新技术,用于连续的序列预测,并在六个真实传感器数据集上展示了其优越性。
- 超越模仿:使用大型语言模型进行基于上下文的推理生成人类移动行为
人类移动行为与交通拥堵和流行病控制等重要社会问题密切相关。然而,收集移动数据可能代价高昂且存在严重的隐私问题,迫切需要高质量的生成性移动模型。本文提出了一种基于常识推理的移动生成方法,设计了一种新颖的 MobiGeaR 框架,通过少样本上下 - 生成式大型语言模型中的概率推理
本研究考虑了大型语言模型(LLMs)在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集(BLInD),我们详细说明了 LLMs 在涉及概率推理的任务中的限制,并提出了几种将问题映射到不同形式表示的策略。我们通过在 BL