技能集优化：通过可转移技能强化语言模型行为

Feb, 2024

技能集优化：通过可转移技能强化语言模型行为

Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills

Kolby Nottingham, Bodhisattwa Prasad Majumder, Bhavana Dalvi Mishra, Sameer Singh, Peter Clark...

TL;DR通过构建和优化一组可迁移技能，我们提出了技能集优化（Skill Set Optimization，SSO）来提高大型语言模型在交互环境中的决策性能。在这种方法中，SSO 通过提取具有高奖励的共同子轨迹，并生成子目标和指示来构建技能。这些技能在上下文中提供给大型语言模型以加强具有高奖励的行为，并通过删除不再产生高奖励的技能来进一步优化技能集。我们通过在经典游戏 NetHack 和文本环境 ScienceWorld 中的实证评估来展示 SSO 优化技能集并提升在上下文中策略改进的能力。在我们自定义的 NetHack 任务中，SSO 的性能比基准提升了 40%，并在 ScienceWorld 中超过了先前的最先进方法达到 35% 的改进。

Abstract

large language models (LLMs) have recently been used for sequential decision making in interactive environments. However, leveraging environment reward signals for continual LLM actor improvement is not straightforward. We propose →

large language models sequential decision making skill set optimization llm actor performance transferable skills

发现论文，激发创造

加入技能发现

语言驱动的机器人技能研究中，通过利用大规模语言模型的高级推理能力应用于低级机器人控制，继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架，通过提供的场景描述和机器人配置生成任务提案，并逐步获得新的技能来完成任务，使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度，从而使机器人能够高效地提出和完成高级任务。

May, 2024

技能混合：学习为优化大型语言模型的数据使用进行微调

我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS)，它能在微调过程中自动优化数据使用，以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能，同时在任务特定微调方面，我们提出了一种适应性技术 MoSpec，为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性，并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。

Jun, 2024

利用大型语言模型学习物理技能的奖励

使用大型语言模型通过环境反馈提取任务知识，为物理技能创建高效的奖励函数。方法包括利用语言模型提出奖励函数的特征和参数，然后通过迭代自对准过程更新这些参数，使语言模型与学习到的奖励函数的排名一致，通过在三个模拟物理技能学习任务中的测试验证了方法的有效性。

Oct, 2023

作为内置零迁移 ESCO 技能匹配器的大型语言模型

The paper presents an end-to-end zero-shot system for skills extraction from job descriptions based on large language models, achieving promising results on skills extraction against the ESCO framework without human annotations.

Jul, 2023

自我提升技能：借助大型语言模型指导学习解决新任务

提出了一种名为 BOSS 的方法，利用大语言模型引导技能引导启动阶段，无需奖励反馈即可实现新任务的学习，从而在新环境中零尝试执行未见过的长远任务方面优于先前的无监督技能获取方法。

Oct, 2023

探索和转移的潜在技能规划

该研究探讨了将学习到的世界模型和技能集成到单个强化学习代理中以快速适应新任务的方法，并在一系列具有挑战性的运动任务中展示了在单个任务和从一个任务到另一个任务的转移中改善了样本效率。

Nov, 2020

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在 BabyAI（一个网格世界导航环境）以及 ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

通过压缩学习选项

研究多任务强化学习中的统计规律对于新任务学习的加速是有效的，而技能学习是实现这一目标的一种方式，技能学习的热门方法是使用潜在变量模型来最大化预收集的经验的可能性，结合应用于描述技能的描述长度惩罚的新目标可以使技能更好地从经验中提取共同结构，并在具有高维图像观察的挑战性任务中进行了验证。

Dec, 2022