FireAct：面向自然语言智能体的微调

Oct, 2023

FireAct：面向自然语言智能体的微调

FireAct: Toward Language Agent Fine-tuning

Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan...

TL;DR利用 Fine-tuning 技术将语言模型（LMs）进行优化，生成语言智能体，以提升其性能，通过基于问题回答（QA）和谷歌搜索 API 的实验设计及多个发现，论文证明 Fine-tuning LMs 对语言智能体具有全面的益处。

Abstract

Recent efforts have augmented language models (LMs) with external tools or environments, leading to the development of language agents that can reason and act. However, most of these agents rely on few-shot

language models fine-tuning language agents prompting techniques question answering

发现论文，激发创造

从失败中学习：在将大型语言模型调优为代理时，整合负例

大语言模型在与环境进行交互时存在工具使用方面的优化限制，然而通过适当的数据清理和微调策略，大语言模型可以从失败中学习并显著提高性能。

Feb, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

AgentTuning：为 LLMs 赋予通用的代理能力

AgentTuning 是一种简单且通用的方法，可以提高大型语言模型在代理任务方面的能力，同时保持其一般能力。该方法通过使用 AgentInstruct 与通用领域的开源指令相结合的混合指令调整策略对 Llama 2 系列进行了指令调整，从而得到 AgentLM。评估结果显示，AgentTuning 能够提升语言模型的代理能力而不影响其一般能力，AgentLM-70B 在未知代理任务上与 GPT-3.5-turbo 相媲美，展现了广义的代理能力。我们在指定的网址开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型，为代理任务提供了开源和强大的替代方案。

Oct, 2023

通过调整和多分支推理增强低参数 LLMs 的普通代理能力

通过构建特定于代理的数据和有监督微调模型，以及设计有效激活大型语言模型推理能力的提示方法，我们提出了一种综合的方法来提高大型语言模型作为代理的性能，并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。

Mar, 2024

Agent-FLAN: 大型语言模型的高效代理调优数据和方法设计

通过重新设计训练语料库，Agent-FLAN 可以有效地对语言模型进行微调，从而提高代理模型在各种评估数据集上的性能，此外，Agent-FLAN 还能显著减轻幻觉问题，并在略微提高通用能力的同时，不断提高语言模型的代理能力。

Mar, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

调整困境：提高翻译质量而不牺牲 LLM 能力

微调大型语言模型对机器翻译的影响及保持翻译质量和翻译能力的需求。

May, 2024

为金融中的表格数据分析赋予语言模型工具使用能力

通过使用外部工具对语言模型进行增强，可缓解传播误差和幻觉等挑战，特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型，使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域的问答数据集，我们的模型 Raven 在改进基准模型和仅进行监督微调的基线模型上分别显示了 35.2% 和 5.06% 的改进，并且与 GPT-3.5 取得了很好的竞争效果。据我们所知，这是首个探索对金融领域的语言模型进行工具增强的研究。

Jan, 2024