SEGO: 数学问题求解的顺序子目标优化

Oct, 2023

SEGO: 数学问题求解的顺序子目标优化

SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving

Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong

TL;DR提出一种名为 SEGO 的新框架，通过建立子目标分解过程与解决问题的概率之间的联系，优化大型语言模型在数学问题求解中的能力，实验证明 SEGO 的有效性并超越以往方法。

Abstract

large language models (LLMs) have driven substantial progress in artificial intelligence in recent years, exhibiting impressive capabilities across a wide range of tasks, including mathematical problem-solving. I

large language models sego subgoal-based methods mathematical problem-solving ai-driven

发现论文，激发创造

分解恩格玛：基于子目标的演示学习用于形式定理证明

本文介绍了一个基于小目标的证明学习框架和扩散模型，成功地将证明的正确率从 38.9％提高到 45.5％，或者比长期的最先进方法提高了 5 倍的采样效率。

May, 2023

组合问题的自我导航探索

通过引入自主的探索策略，该研究首次将大型语言模型应用于各种组合问题，表明自主探索策略在组合问题的优化性能上超过现有的提示策略 27.84%。此外，在算术、常识和符号推理等其他推理任务中，自主探索策略的准确性也比现有方法高 2.46%。

May, 2024

LgTS: 使用 LLM 生成的子目标进行动态任务抽样的强化学习代理

本研究提出了一种新方法，利用大型语言模型（LLM）的规划能力，为没有环境转换动力学访问权限的强化学习代理提供子目标的图形表示，同时最小化环境交互次数。

Oct, 2023

LaGR-SEQ: 语言引导的强化学习与高效抽样查询

通过使用大型语言模型的预测能力，我们引入了 LaGR（语言引导的强化学习）和 SEQ（样本高效查询）两个框架，用于在部分完成的任务中提出解决方案，并同时降低对语言模型的查询次数，从而更高效地进行主要强化学习训练。

Aug, 2023

SelfGoal: 语言智能已经知道如何实现高级目标

通过自适应子目标树将高级目标细分为实用的子目标，自我目标（SelfGoal）显著提高了语言代理在竞争性、合作性和延迟反馈环境中的性能。

Jun, 2024

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024

目标：通用组合优化智能学习器

GOAL 是一种通用模型，基于机器学习启发式算法，能够高效地解决多种复杂组合优化问题，并且具有强大的迁移学习能力。

Jun, 2024

多智能体强化学习中的语义对齐任务分解

本研究提出了一种新的分解任务和子目标分配的决策方法 --SAMA。SAMA 使用预训练的语言模型，结合语言基础强化学习来训练子目标条件策略，相较于现有的 ASG 方法，SAMA 具有更高的样本效率。

May, 2023

使用语言模型进行小样本子目标规划

本文探讨了预训练的大型语言模型在预测现实世界环境中可行的计划方面的能力，表明预先训练的语言模型中的语言优先级允许我们推断出细粒度的子目标序列，并提出了一种通过环境的交互和反馈重新排列语言模型预测的简单策略，结合预先训练的导航和视觉推理组件在 ALFRED 基准测试中表现优秀。

May, 2022

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024