通过与学习助手的合作交互，从错误中学习

May, 2023

通过与学习助手的合作交互，从错误中学习

Learn from Mistakes through Cooperative Interaction with Study Assistant

Danqing Wang, Lei Li

TL;DR本文提出了一种名为 SALAM（Study Assistant for Large Language Model）的框架，通过对先前反馈进行评分并收集培训阶段的错误，以在推断过程中为语言模型提供指南，从而协助其进行自我反思和提炼，从而显著提高了绩效。

Abstract

large language models have demonstrated their ability to self-reflect and refine their generation, which can further improve their performance. However, this feedback mechanism faces challenges such as no guarantee of correctness and the lack of global insight into the model's weakness

large language models self-reflection generation refinement study assistant for large language model improved performance

发现论文，激发创造

TasTe: 通过自我反思教授大型语言模型进行翻译

TasTe 框架通过自我反思的过程提出了一种新的方法，通过指导和评估生成的初步翻译，并最终提高翻译质量和大型语言模型的能力。

Jun, 2024

基于错误学习的 LLM 教学：自动化模型改进

该研究介绍了创新的 “LLMs 作为教师” 的框架，利用先进的大型语言模型（LLMs）自动增强较小目标模型的训练。采用 “学习错误” 理论启发，该框架使用教师 LLM 细致分析目标模型中的具体错误，促进有针对性和高效的训练周期。通过 “学习错误” 和 “对比学习从错误中学习”，该框架实施了两种策略，分别关注错误响应以个性化训练数据，并分析正确和错误响应以更深入理解错误。使用多个开源模型进行的实证研究表明，在数理推理、编码能力和事实知识等多个基准测试中都取得了显著的改进。值得注意的是，改进后的 Llama-3-8b-Instruction 的表现超过了 ChatGPT，证明了我们方法的有效性。通过充分利用两种策略的优势，我们在领域内外基准测试上获得了更加平衡的性能提升。我们的代码可在此 https URL 找到。

Jun, 2024

SALM: 基于语境学习的语音增强语言模型用于语音识别和翻译

我们提出了一种新颖的具有多任务和上下文学习能力的语音增强语言模型（SALM）。SALM 由一个固定的文本语言模型，一个音频编码器，一个模态适配器模块和适应语音输入和关联任务指令的 LoRA 层组成。统一的 SALM 不仅在自动语音识别（ASR）和语音翻译（AST）等特定任务上达到了与 Conformer 基线相当的性能，还展现了零 - shot 的上下文学习能力，通过 ASR 和 AST 的关键词增强任务进行了验证。此外，我们提出了语音监督上下文训练方法，弥合了 LLM 训练和下游语音任务之间的差距，进一步提升了语音到文本模型的上下文学习能力。所提出的模型通过 NeMo 工具包开源。

Oct, 2023

SAIE 框架：单一的支持是不够的 —— 通过对抗性评注推进 LLM 培训

通过学习中的交互式讨论，我们的 SAIE 训练方法提升了大型语言模型在训练阶段对实例的理解能力和在推理阶段的逻辑 / 批判性思维能力和表达能力。实验结果表明，使用我们的方法微调的模型在多个数据集上均优于使用标准微调技术训练的模型，尤其在多智能体推理情景下，我们的方法表现出卓越的推理能力。

Nov, 2023

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Jun, 2024

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

社会学习：朝着与大型语言模型进行合作学习

在大型语言模型（LLMs）中，介绍了 “社交学习” 的框架，其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法，第一种情景中，模型生成抽象提示用于教授任务，而我们的第二种方法中，模型通过生成合成示例来传递知识。我们在多个数据集上评估了这些方法，并以记忆作为隐私损失的代理进行了量化。这些受社交学习启发的技术得到了有希望的结果，原始数据的记忆化较低。特别是，我们表明使用这些方法的性能与使用原始标签和提示的结果相当。我们的工作证明了社交学习在 LLMs 中的可行性，建立了基础方法，并突出了几个尚未开发的领域的重要性。

Dec, 2023

从错误中学习使 LLM 成为更好的推理者

利用 Learning from Mistakes（LeMa）方法，本研究利用大型语言模型（LLMs）对数学问题的解决能力进行改进，仿照人类学习过程中的错误驱动学习机制，通过与 GPT-4 生成的错误更正数据对进行微调，实验证明 LeMa 提升了性能，在 5 个 LLMs 和 2 个数学推理任务中持续改善性能，并在特定 LLMs（如 WizardMath 和 MetaMath）上表现出色，在具有挑战性的任务上超越了开源模型的性能。

Oct, 2023

强化学习思考的语言模型自我提升

本文介绍了一种新的无监督方法 SIRLC，通过强化学习来提高 LLMs 的性能，无需依赖外部标签。该方法把 LLMs 分配为学生和教师两个角色，通过评分策略来更新模型参数，实验结果表明，SIRLC 能够有效提高 LLM 的表现，适用于多个自然语言处理任务，并且无需外部监督。

May, 2023