- RadDQN: 基于深度 Q 学习的最小辐射暴露路径发现架构
近期深度强化学习技术在自动化领域引起了广泛关注,本文介绍了一种基于深度 Q - 学习的架构(RadDQN),该架构利用感知辐射的奖励函数,为辐射区域提供了时间高效的最小辐射暴露路径,并通过一套独特的探索策略进行优化。与基准方法相比,我们的模 - 通过自动学习组合子任务实现高效样本强化学习
自动结构化奖励函数以提高样本利用率,并在稀疏奖励环境中显著优于现有技术基线。
- 具有次优专家的逆强化学习
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
- AAAI计数奖励自动机:通过利用奖励函数结构的样本高效强化学习
我们提出了一种计数奖励自动机 —— 一种能够模拟任何能以形式语言表示的奖励函数的有限状态机变体。与以前的方法不同,这些方法仅能表达任务为正则语言,而我们的框架允许通过无限制语法来描述任务。我们证明了一个配备这样抽象机器的代理能够解决比使用当 - 风险规避的批次主动逆向奖励设计
通过批处理逐渐优化查询的可能奖励函数的概率分布,在保证安全性的同时,提高效率和准确性,以及适应处理未知特征并对重要的 AI 模型进行调整。
- 基于聚合数据的对抗性模仿学习
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生 - 逆强化学习的新型变分下界
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler - 具有逆动力学表示的稳健视觉模仿学习
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿 - 对比偏好学习:无需 RL 的人类反馈学习
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意 MDPs 环境。
- 使用 Sum-GP-UCB 估计相互作用物体的材料属性
机器人需要从观察中估计物体的材料和动态特性,本研究提出了基于贝叶斯优化的方法来识别物体的材料属性参数,通过对不同场景下互动物体的观察进行估计,利用奖励函数的结构,仅使用场景中对象的参数作为输入,得到更好的广义模型来加速优化过程,还通过部分评 - 基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习
我们引入了 DRASRL 框架,该框架考虑了路径排序和路径之间的差异度,通过测量轨迹生成的策略之间的距离来消除奖励的歧义,同时利用对比学习技术来推断表示空间中的嵌入,结合成对排序损失函数将排序信息纳入到潜在特征中,并采用 Transform - 强化学习中的古德哈特定律
奖励函数、古哈特法则、优化、提前终止方法和强化学习是本研究的关键词汇和主题。
- 通过最优传输从观察中进行模仿学习
实时观察下的模仿学习 (ILfO) 中,利用最优传输来生成奖励函数,通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异,无需学习模型或对抗学习,可以与任何强化学习算法集成,并适用于 ILfO,能在多个连续控制任务中超越现 - 有序保留的 GFlowNets
Order-Preserving GFlowNets (OP-GFNs) are proposed to sample candidates in proportion to a learned reward function consis - 一种基于差异驱动强化学习的量子态制备方法
通过改进奖励函数和动作选择策略,提出了一种用于两量子比特系统的差分驱动强化学习算法来解决量子态制备中存在的问题,旨在在有限条件下快速并高保真度地制备目标量子态。
- 一种鲁棒逆强化学习的贝叶斯方法
我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环 - 自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者
我们提出了一个带有自我完善机制的新型大语言模型框架,用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验,结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越,突显了我们方法的效果和适用性。
- 人类反馈的迭代奖励塑造用于修正奖励误设定
提出了一种利用人类反馈进行迭代奖励塑形的方法(ITERS),允许用户在训练过程中提供轨迹级别的反馈,并结合用户解释来改进奖励函数,成功纠正错误的奖励函数。
- 强化学习的红绿灯控制
本研究提出一种实时交通信号灯控制方法,使用深度 Q 学习,并结合奖励函数,考虑排队长度、延迟、旅行时间和吞吐量,通过根据当前交通状况动态决定相位变化。通过使用合成和实际交通流数据在中国杭州的一个路口进行验证,结果表明与传统的固定信号计划相比 - PIMbot:多机器人强化学习在社会困境中的策略和激励调整
本文介绍了一种名为 PIMbot 的新方法,通过策略操纵和激励操纵来操纵多机器人协作中的奖励函数,以探索多机器人通信如何实现不同结果,并展示了在 Gazebo 仿真多机器人环境中提出的方法的有效性。