利用黑盒 LLMs 学习纠正 QA 推理

Jun, 2024

Learning to Correct for QA Reasoning with Black-box LLMs

Jaehyung Kim, Dongyoung Kim, Yiming Yang

TL;DR该论文提出了一种名为 CoBB 的新方法，通过使用一个训练过的适应模型来将原始黑盒 LLM 的通常不完美的推理转化为正确或改进的推理，以显著提高各种 QA 基准的推理准确性。

Abstract

An open challenge in recent machine learning is about how to improve the reasoning capability of large language models (LLMs) in a

machine learning reasoning capability large language models black-box setting cobb

发现论文，激发创造

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

从正确性学习，无需提示使 LLM 高效推理

利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Mar, 2024

将迁移学习与上下文学习结合，利用黑盒预训练语言模型进行零样本知识库问答

我们提出了将零样本迁移学习和黑盒大型语言模型应用于知识库问答问题的组合方法，并通过实验结果表明，这种组合方法在不同阶段均带来显著的改进，并且在有限标记数据和整个大型训练数据集的情况下都优于现有方法。

Nov, 2023

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

利用 LLMs 进行对话质量测量

该论文探讨了使用大型语言模型（LLMs）进行自动对话质量评估的方法，并在公共和专有数据集上尝试了各种配置。结果表明，更大的模型产生了更准确的对话标签；算法选择背景上下文示例优于随机选择；在输出最终标签之前，使用 “思维链”（CoT）推理和标签提取过程进行合理化，可以提高性能；精细调整的 LLMs 优于开箱即用的模型。研究结果表明，合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。

Jun, 2024

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

通过知识图谱集成协作的强化提示型 LLM 推理方案

利用大型语言模型 (LLMs) 和知识图谱 (KG) 的协作训练方法，本研究在知识图谱的指导下，通过迭代探索和选择性地检索任务相关的知识子图来支持推理，使得 LLMs 能更可靠地进行基于知识的推理，并同时明确阐述推理过程，实验结果表明本方法在多个数据集上显著改进，尤其在 QALD10 数据集上相对于最佳基线和最先进的方法提高了超过 10%，为今后的知识图谱和大型语言模型融合研究提供了有价值的参考，提升 LLMs 在解决复杂问题上的能力。

Feb, 2024

CombLM：通过小型微调模型调整黑盒语言模型

一种适用于新任务和域的轻量级语言模型细调方法，采用小型白盒模型细调结合概率级别的大型黑盒模型，可显着提高机器翻译等任务的性能。

May, 2023

BBox-Adapter：针对黑盒大型语言模型的轻量级适配

使用 BBox-Adapter 对黑盒大型语言模型进行轻量级适配，通过实时正数据采样和先前适配的负数据，提高了模型性能，降低了训练和推理成本。

Feb, 2024

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023