本文综述了五种最近主要依赖于人类指导的机器学习框架及其动机,假设和实施,并讨论可能的未来研究方向。
Jul, 2021
本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式,能够通过学习外部教师提供的结构化建议,解决复杂任务的学习难度,对拼图、导航和运动等各种任务需求的人工干预也相对较少。
Mar, 2022
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023
本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务,以解决在稀疏奖励的强化学习设置中的复杂多任务问题,并证明人类演示有助于解决最复杂的任务,同时允许该模型再未见数据的情况下推广学习,从而使训练好的代理人具有可解释的行为。
Nov, 2020
人类导引在强化学习中经常被用来提升学习代理的性能。然而,人类的见解通常只是意见和猜测,而不是明确的论证。尽管意见存在不确定性,但它们往往比硬证据早出现。因此,通过意见来引导强化学习代理提供了更有效的学习过程的潜力,但也面临以形式化方式建模和管理意见的挑战。本文介绍了一种通过意见来引导强化学习代理的方法,并提供了一种端到端的方法来建模和管理顾问的意见。通过合成和人类顾问以及不同级别的不确定性和多个建议策略的评估,我们评估了该方法的效用。结果表明,即使是不确定的意见也能提高强化学习代理的性能,从而获得更高的奖励、更高效的探索和更好的加强策略。虽然我们在一个简化的拓扑运行示例中演示了我们的方法,但我们的方法也适用于具有更高维度的复杂问题。
May, 2024
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
May, 2020
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
本研究基于强化学习、多模态嵌入和图嵌入等技术,设计了一个新型的数字人互动推荐代理框架,以提高个性化推荐和数字人代理的效率和准确性。实验结果表明该框架具有更好的个性化客户参与和更好的客户体验。
Oct, 2022
本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点,讨论了演示在决策学习中各种应用方法,并提供了一个实用的流程示例用于生成和利用演示。
Mar, 2023
本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法,证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。
Mar, 2017