从失败中学习：在将大型语言模型调优为代理时，整合负例

Feb, 2024

从失败中学习：在将大型语言模型调优为代理时，整合负例

Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents

Renxi Wang, Haonan Li, Xudong Han, Yixuan Zhang, Timothy Baldwin

TL;DR大语言模型在与环境进行交互时存在工具使用方面的优化限制，然而通过适当的数据清理和微调策略，大语言模型可以从失败中学习并显著提高性能。

Abstract

large language models (LLMs) have achieved success in acting as agents, which interact with environments through tools like search engines. However, LLMs are not optimized specifically for tool use during trainin

large language models tool use interaction trajectories data cleaning model performance

发现论文，激发创造

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

FireAct：面向自然语言智能体的微调

利用 Fine-tuning 技术将语言模型（LMs）进行优化，生成语言智能体，以提升其性能，通过基于问题回答（QA）和谷歌搜索 API 的实验设计及多个发现，论文证明 Fine-tuning LMs 对语言智能体具有全面的益处。

Oct, 2023

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

使用对比上下文学习自定义语言模型回复

利用对照性示例来提高大型语言模型对我们的意图的理解以及生成内容的能力，在合成和真实数据集上的实验证明该方法显著提升了性能。

Jan, 2024

从 LLMs 中提取复杂推理能力：利用负面数据提炼出来的金子

通过负面样本进行蒸馏以及在算术推理任务中证明负面数据在从 LLM 蒸馏中的作用。

Dec, 2023

通过微调和上下文学习引导大型语言模型进行机器翻译

通过使用适配器进行微调，我们可以改善大型语言模型在机器翻译方面的性能，并减少训练参数量，同时保持微调模式的效果，解决了少样本学习和过度生成的问题。

Oct, 2023

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

个性化大型语言模型

该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用，结果表明，与非个性化模型相比，个性化调整能够提高模型的推理能力，并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升，这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。

Feb, 2024