我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估,其中观测是 64×64 像素鸟瞰图像,并且可以表明该方法始终达到多个目标。
Dec, 2023
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
通过最大限度地提高信息价值的可跟踪代理来学习用户奖励模型,以与强化学习中未知动态、未知奖励函数和未知不安全状态的用户目标相一致。
Dec, 2019
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用 “假设” 结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
本研究提出一种新的强化学习方法,即基于内部模型的奖励估计方法,通过预测给定专家状态分布的预测模型来估计奖励,进而直接从专家操作的视频中成功训练出良好的策略。
Jun, 2018
通过把任务分解成不同的部分并利用动态的不平衡性,使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。
Mar, 2023
本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的训练,同时也采用了前人的人类反馈信息和环境。
Jun, 2017
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
本研究使用深度神经网络进行强化学习,将人工反馈的目标作为奖励函数输入,并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线,并在其中 2 个游戏中获得了超人的表现,同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。
Nov, 2018
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。