COREALMLIB:从零件库翻译的ALM库
本文介绍了一种新的模块化行动语言ALM,重点介绍了其使用方法,解决了现有行动语言处理大型系统的限制,支持知识结构化并提供了包括模块层次等多种有用功能以便于逐步开发,测试和阅读知识库。
May, 2015
计划和推理是最近逻辑和计算机科学研究中的重要问题,本研究提出了一种将行为嵌入到描述逻辑(DL)中的框架,用于表示和推理行为,并提出了一种算法来处理行动的各种情况。
Jan, 2024
大型语言模型需要通过链接现实世界的知识来实现与人类期望一致的准确推理。我们提出了一种新的方法,使用抽象链条进行计划,从而使语言模型能够更好地利用工具进行多步推理,并取得更高效的工具使用和更快的推理速度。
Jan, 2024
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
为了使大型语言模型(LLMs)能够成为具有可推广的推理能力的有意识的代理人,关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化(转换)的推理能力。我们提出了一种新颖的推理形式,称为MetAphysical ReaSoning,它将分布变化的推理视为一个三步骤的判别过程,并引入了首个基准测试MARS来评估LLMs在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示,即使对于最先进的LLMs和经过微调的LMs而言,该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了LLMs表现不佳的潜在原因,并证明了在大规模概念分类法中预训练LLMs可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此https URL上公开访问。
Jun, 2024
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用LLM推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对7个环境的分析表明,使用LLMs作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
通过受控的多跳反事实,我们提出了一个框架和基准套件 $ exttt{ACCORD}$,用于解开大规模语言模型(LLMs)的常识基础和推理能力。通过引入形式化元素到常识推理中,$ exttt{ACCORD}$可以明确控制和量化推理复杂性,超越典型的 1 或 2 跳。基准测试最先进的 LLMs(包括 GPT-4o(2024-05-13)、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1)显示性能仅随着适度扩展而降至随机机会,为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜,以及用于自动生成更复杂基准测试的代码。
Jun, 2024
利用大型语言模型解决复杂推理任务的 Sibyl 框架,通过整合语言模型的知识、上下文学习和零-shot能力,并结合复杂的调用工作流和全局工作空间,实现了系统优化和知识共享,同时利用多智能体辩论来提供全面且平衡的答案。实验结果表明,Sibyl 在 GAIA 基准测试上表现优异,希望能激发更可靠且可复用的基于语言模型的解决方案来应对复杂的实际推理任务。
Jul, 2024
该研究解决了在自然语言描述的规划任务中,使用大型语言模型(LLMs)导致不一致推理和幻觉的问题。通过构建动作模式库并引入语义验证和排序模块,该方法实现了不需要专家干预的完全自动化规划管道,显示出在规划任务中的优越性,可能使更广泛的用户群体能够参与AI规划。
Sep, 2024