在线多智能体流量联合微调

Jun, 2024

Online Joint Fine-tuning of Multi-Agent Flows

Paul Mineiro

TL;DR在线联合微调流程的方法适用于复杂问题的解决方案生成，通过模拟器访问提供对决策的偏好，适用于多跳 QA 数据集 Musique 并取得最新成果。

Abstract

A Flow is a collection of component models (``Agents'') which constructs the solution to a complex problem via iterative communication. flows have emerged as state of the art architectures for code generation, an

flows code generation supervised learning techniques online joint fine-tuning multi-hop qa dataset musique

发现论文，激发创造

FireAct：面向自然语言智能体的微调

利用 Fine-tuning 技术将语言模型（LMs）进行优化，生成语言智能体，以提升其性能，通过基于问题回答（QA）和谷歌搜索 API 的实验设计及多个发现，论文证明 Fine-tuning LMs 对语言智能体具有全面的益处。

Oct, 2023

语言模型的元学习在线适应

通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。

May, 2023

通过保守微调扩散模型，建立基于模型的优化和生成建模的桥梁

通过优化奖励模型的方式，我们采用了一种混合方法来调优顶尖扩散模型，结合了生成模型和基于模型的优化方法的优势，以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中，我们关注的是一个奖励模型未知的离线环境，通过学习静态离线数据集，解决过度优化问题，同时利用奖励模型的外推能力最大化了离线数据中的设计性能。

May, 2024

个性化协作微调用于设备上的大型语言模型

在设备上进行自我监督的合作微调大规模语言模型的研究，使用三种不同的信任加权梯度集成方案，并与 FedAvg 和本地微调方法相比，使用少量的数据交换和 LoRA 权重更新，显示出在本地数据分布不均的现实场景中处理异质性和稀缺性方面的有效性。

Apr, 2024

通过自适应反向传播实现大规模语言模型微调中的绿色人工智能

通过评估不同张量的反向传播成本和对精调模型准确性的贡献，选择最适合的张量集以最小化训练成本，并实现 FLOPs 的减少，GreenTrainer 技术相较于整个 LLM 模型的精调可节省高达 64% 的 FLOPs，同时不会显著降低模型准确性，相较于现有的技术如 LoRa，GreenTrainer 能在 FLOPs 减少的同时提高 4% 的模型准确性。

Sep, 2023

使用形式方法反馈对语言模型进行微调

使用自然语言任务描述，通过自动合成基于自动机的控制器，并通过与独立提供的规范进行验证，将预训练语言模型完全自动调优以适应自主系统的应用，从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距，其在自主驾驶等多个任务中显示出有效性，使控制器所满足规范的百分比从 60% 提高到 90%。

Oct, 2023

通过组合微调语言模型学习执行复杂任务

本文介绍了一种基于将目标任务分解成组成任务并在这些组成任务的课程中微调较小语言模型的方法，即组合微调，应用于两个领域的推荐任务和一个推理任务，并证明其性能比端到端学习更好。

Oct, 2022

通过高效的微调学习语音生成的细粒度可控性

提出了 Voicebox Adapter 方法，通过交叉注意力模块将细粒度条件整合到预训练的 Voicebox 语音生成模型中，探索了各种高效的微调方法，实验证明，采用具有偏差微调配置的 LoRA 方法性能最佳，提高了可控性同时保持了语音质量，表明 Voicebox Adapter 在三种细粒度条件生成任务中具有效力和资源效率，并且通过后续实验证明了在不同数据设置中 Voicebox Adapter 的鲁棒性。

Jun, 2024

精准指点，而非批评：通过精细的可操作反馈改进大型语言模型

使用细粒度的可行操作反馈，基于学习的错误定位模型预测的错误类型、错误位置和严重程度，提出了 FITO（一种推理时间优化方法）来进行迭代改进，通过一个生成改进输出的改进模型，迭代地结合反馈。我们在三个文本生成任务上进行了实验，包括机器翻译、长篇问答（QA）和主题摘要，在单次迭代的改进中，中英翻译和英德翻译分别观察到 0.8 和 0.7 的 MetricX 增益，问答和主题摘要分别观察到 4.5 和 1.8 的 ROUGE-L 增益。通过我们的模拟退火算法，我们看到进一步的质量改进，包括与基准方法相比高达 1.7 的 MetricX 改进。

Nov, 2023

动态评估的再审查：大型语言模型的在线调整

在线微调参数，动态评估，参数的临时变化状态，样本效率。

Mar, 2024