使用形式方法反馈对语言模型进行微调

Oct, 2023

使用形式方法反馈对语言模型进行微调

Fine-Tuning Language Models Using Formal Methods Feedback

Yunhao Yang, Neel P. Bhatt, Tyler Ingebrand, William Ward, Steven Carr...

TL;DR使用自然语言任务描述，通过自动合成基于自动机的控制器，并通过与独立提供的规范进行验证，将预训练语言模型完全自动调优以适应自主系统的应用，从而在减少成本的同时弥补了通用知识和特定领域要求之间的差距，其在自主驾驶等多个任务中显示出有效性，使控制器所满足规范的百分比从 60% 提高到 90%。

Abstract

Although pre-trained language models encode generic knowledge beneficial for planning and control, they may fail to generate appropriate control policies for domain-specific tasks. Existing fine-tuning methods us

pre-trained language models fine-tuning methods autonomous systems automaton-based controllers specifications

发现论文，激发创造

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

面向交互式机器人编程的领域特定大型语言模型精调

工业机器人在不断扩大的行业范围内得到应用，但机器人编程大多仍局限于编程专家的任务。我们提出了一种基于自然语言的助手，用于高级工业机器人应用的编程，并研究了在有限的数据和计算资源下领域特定微调基础模型的策略。

Dec, 2023

利用领域特定大型语言模型进行研究综述的自动化

本研究探索使用精细调整的大型语言模型（LLMs）自动化系统性文献综述（SLRs），提出了将人工智能与学术研究方法相结合的重要和创新贡献。通过采用最新的精细调整方法和开源的 LLMs，我们展示了一种实用高效的自动化 SLR 过程的方法，包括知识综合的最终执行阶段。研究结果在 LLM 响应的事实准确性方面保持了很高的保真度，并通过对现有符合 PRISMA 的 SLR 的复制进行了验证。研究提出了减轻 LLM 虚幻感的解决方案，并提出了追踪 LLM 响应与信息来源的机制，从而证明了这种方法如何满足学术研究的严格需求。最终的发现证实了精细调整的 LLMs 在简化各种劳动密集型的文献综述过程方面的潜力。鉴于这种方法的潜力及其在所有研究领域的适用性，这项基础研究还呼吁更新 PRISMA 报告指南以整合 AI 驱动的过程，确保未来 SLRs 的方法透明性和可靠性。该研究拓宽了 AI 增强工具在各学术和研究领域的应用，为在日益增长的学术研究数量面前以更高效的方式进行全面准确的文献综述设立了新的标准。

Apr, 2024

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

强化学习中的预训练模型调制学习

本文旨在研究强化学习中的遗忘问题，提出了基于 Learning-to-Modulate 的解决方案，并在 Meta-World 和 DMControl 数据集上进行了实验验证，表明该方法在 Continual-World 基准测试中取得了最优表现。

Jun, 2023

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

机器人的精细调整简化：自主现实世界强化学习的预训练奖励和策略

通过使用预训练和微调范式，我们引入 RoboFuME 系统，利用网络上的数据和模型，允许机器人在几乎没有人工干预的情况下学习新任务，并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器，在线进行微调并提供奖励信号，从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中，我们的方法表现出色。

Oct, 2023

语言模型是少样本学习的管家

使用预训练语言模型和简单的强化学习算法，无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。

Apr, 2021

喊叫您的机器人：从语言纠正中实时改进

通过语言反馈不断改进高层策略，使机器人在复杂的、需要长程规划的任务中表现得更加出色，无需额外的远程操作。

Mar, 2024