通过想象力、搜索和批评实现 LLM 的自我提升

Apr, 2024

通过想象力、搜索和批评实现 LLM 的自我提升

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu...

TL;DRAlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成，建立了一个自我改进循环，从而提高了 LLMs 的能力，同时避免了其他额外的注释，实验结果表明 AlphaLLM 显著提高了 LLMs 的性能。

Abstract

Despite the impressive capabilities of large language models (LLMs) on various tasks, they still struggle with scenarios that involves complex reasoning and planning. Recent work proposed advanced prompting techniques and the necessity of fine-tuning with high-quality data to augment L

large language models self-improvement monte carlo tree search language tasks llm performance

发现论文，激发创造

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

自我改进：带自反馈的迭代改进

通过引入 SELF-REFINE 框架，可以通过迭代反馈和改进从 LLMs 获得更好的输出，同时不需要监督训练数据或强化学习，且在 7 种任务中展现出优越性能。

Mar, 2023

强化学习思考的语言模型自我提升

本文介绍了一种新的无监督方法 SIRLC，通过强化学习来提高 LLMs 的性能，无需依赖外部标签。该方法把 LLMs 分配为学生和教师两个角色，通过评分策略来更新模型参数，实验结果表明，SIRLC 能够有效提高 LLM 的表现，适用于多个自然语言处理任务，并且无需外部监督。

May, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

通过互动演示教授语言模型自我提升

通过 TriPosT 训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023