一个代理应该如何练习？

AAAIDec, 2019

How Should an Agent Practice?

Janarthanan Rajendran, Richard Lewis, Vivek Veeriah, Honglak Lee, Satinder Singh

TL;DR该研究提出了一种通过学习内在奖励函数来驱动代理在练习期间学习，避免缺乏外在任务奖励的影响的方法，并通过元梯度法来适应练习奖励参数，该方法在格子世界以及两个游戏中进行了评估，显示了在练习和比赛中同时学习的优势。

Abstract

We present a method for learning intrinsic reward functions to drive the learning of an agent during periods of practice in which extrinsic task rewards are not available. During practice, the environment may differ from the one available for training and evaluation with extrinsic rewa

intrinsic reward functions practice-match setup meta-gradient approach grid world skill acquisition

发现论文，激发创造

PATIENT-Ψ: 使用大型语言模型为训练心理健康专业人员模拟患者

我们提出了一种新颖的患者模拟框架 PATIENT-Ψ，用于认知行为疗法 (CBT) 培训。通过角色扮演与 PATIENT-Ψ 进行治疗会话，我们设计了一个交互式培训方案，PATIENT-Ψ-TRAINER，让心理健康实习生练习 CBT 的关键技能 —— 患者的认知模型制定。通过与不使用患者进行模拟的教材、视频和角色扮演等方式相比，实践证明利用 PATIENT-Ψ-TRAINER 可大大提高实习生的技能掌握和信心，并且 PATIENT-Ψ 被心理健康专家认为比 GPT-4 更接近真实患者互动，为提高实习生的能力提供了强有力的潜力。这一基于大型语言模型的开创性患者模拟培训框架具有巨大的潜力，可以增强和推进心理健康培训，最终改善患者的护理和结果。我们将公开所有数据、代码和培训平台。

May, 2024

通过自然发生的数据自动发现控制技能习得的符号定律

从大规模训练日志数据中发掘技能学习的规律，分为两个阶段的算法，使用深度学习模型确定学习者的认知状态和评估特征重要性，然后利用符号回归算法将神经网络模型解析为代数方程。实验结果表明，该算法在连续反馈设置中能够准确恢复各种预设规律，在应用于 Lumosity 训练数据时相比传统和最新模型有更好的性能。结果发现了两种新形式的技能学习规律，并对某些先前的研究结果进行了重新确认。

Apr, 2024

可控感知的无监督技能探索

提出了一种新的无监督技能发现方法，名为 CSD，它可以主动寻求难以控制的复杂技能，包括机器人操作和运动技能。该方法使用可控性感知距离函数对状态转换进行评估，并结合距离最大化技能发现方法，在无监督下逐步学习更具挑战性的技能，在六个机器人操作和运动环境下表现显著优于之前的方法。

Feb, 2023

当可以进行变形器基础和组合：来自组合泛化基准测试的见解

使用谷歌的翻译翻译：“该论文介绍了基于变压器的模型如何理解世界，并将语言表达与现实世界联系起来，这对研究者在这一领域的工作非常有帮助。通过在基于网格的导航任务上进行的基准测试，我们发现识别网格世界中的目标位置是模型面临的主要挑战，变压器可以泛化到更深的输入结构，并提供了一种更简单的基于调节的组合任务，以调查变压器的计算行为。

Oct, 2022

基于重置游戏的控制基元继续学习技能发掘

提出一个能够在解决真实世界中很多挑战的同时，通过学习 ' 重置技能 ' 来帮助代理人更有效地学习技能的通用博弈形式方法，并实验表明该方法可以显著提高代理人的表现和加速后续学习。

Nov, 2020

通过目标生成将语言与自主获得的技能联系起来

语音条件加强学习是获取技能库的好工具，但大多数学习代理无法自主学习并直接语言条件化不能表达过多的行为多样性。本文提出了一种名为 LGB 的新型语言条件强化学习思路，通过中间语义表示解耦技能学习和语言基础。

Jun, 2020

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

学习策略梯度方法的内部奖励

本文中，研究了在序列决策任务中，优化奖励函数对于强化学习的性能具有重要意义，提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法，并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。

Apr, 2018

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

使用技能符号循环构建抽象层次结构

本文提出了一种通过交替运用技能获取和表示获取阶段，构建越来越抽象的马尔可夫决策过程序列的抽象层次结构框架，并描述了如何为出租车领域构建合适的层次结构以实现快速规划。

Sep, 2015