更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

Oct, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

Ask more, know better: Reinforce-Learned Prompt Questions for Decision Making with Large Language Models

Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang...

TL;DR利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Abstract

large language models (LLMs) demonstrate their promise in tackling complicated practical challenges by combining action-based policies with chain of thought (CoT) reasoning. Having high-quality prompts on hand, h

large language models cot reasoning prompts bilevel framework task-solving

发现论文，激发创造

大型语言模型的思路链主动提示

本文提出了一种新的方法 Active-Prompt，通过任务特定的示例提示来适应 LLMs 的不同任务，通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性，取得了八项复杂推理任务的最新成果。

Feb, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

基于有限样本的思维链驱动推理用于开放式医学问题回答的 LLMs

使用大型语言模型（LLMs）自动化医疗任务，如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集，用于模拟真实的临床场景，并探索基于思维链（CoT）推理的主观响应生成，以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与，开发了更好的对比学习策略，并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。

Mar, 2024

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

大型语言模型作为类比推理者

通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。

Oct, 2023

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

Meta-CoT：大型语言模型中的混合任务场景中可普遍化的思维链开启

使用混合任务场景中的元推理链 (Meta-CoT) 提示方法，构建来自相应数据池的多样化演示，可同时在十个公共基准推理任务上表现出卓越的性能和优越的泛化能力。

Oct, 2023

支持半自主任务学习的语言模型提示改进

本文探讨利用语言模型 (LLMs) 作为知识源，辅助 agent 学习新任务的能力。通过使用构建提示词（或 “暗示”），研究什么样的响应既合理，又可以满足 Agent 任务上下文。研究结果表明，在线 agent 任务学习可以从 LLMs 获取可操作的任务知识。

Sep, 2022

大规模语言模型代理的自动提示工程规划

在这篇论文中，我们提出了一种名为 RePrompt 的新方法，通过从与 LLM 代理的交互中获取的聊天记录，逐步优化 LLM 代理的提示，从而使 LLM 在特定领域中学会规划，我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。

Jun, 2024