- 噪声与不确定环境中的深度强化学习奖励机制
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套 RL 算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。
- 基于知识驱动的强化学习自动渗透测试与奖励机制
基于强化学习的自动化渗透测试(AutoPT)已被证明能够提高信息系统中漏洞识别的效率。然而,基于强化学习的 PT 面临着一些挑战,包括采样效率低、奖励规定复杂以及可解释性有限。为解决这些问题,我们提出了一种基于知识的 AutoPT 框架,称 - 数值化奖励机器
通过扩展奖励机制的数值特征,可以显著改善在数字化任务中的奖励机制的效果,并在与基准方法的比较中取得了显著优势。
- 多智能体强化学习与奖励机器的层次
本文研究利用奖励机器(RMs)来指定奖励函数,从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习(MARL)问题。我们提出了具有层次结构的高级事件的多智能体强化学习(MAHRM),能够应对多智能体之间事件可以并发发生且代理 - 逻辑规范引导的强化学习智能体的动态任务采样
基于逻辑规范引导的动态任务采样(LSTS)是一个新颖的方法,不像以前的方法,LSTS 不需要关于环境动态或奖励机器的信息,并且通过动态采样有希望导致成功目标策略的任务,来引导代理从初始状态到目标状态。在格局世界的评估中,LSTS 在复杂的顺 - 对奖励机器强化学习的对抗性攻击
研究论文通过分析基于奖励机制的强化学习技术的安全性,提出并评估了一种新型的攻击方式:致盲攻击。
- 智能驱动增强学习的鲁棒性评估
采用奖励机制的智能驱动增强学习的鲁棒性问题需要进一步研究以加强当前先进的增强学习方法并达到应用于关键任务的状态。
- 通过对序列的偏好查询学习奖励机器
用于学习奖励机制的新算法 REMAP,通过引入偏好查询替代成员查询并利用符号观测表、统一和约束求解来缩小奖励机制的搜索空间,具有正确性和终止性保证。
- Ω 正则奖励机
通过将奖励机制与 ω- 正则语言相结合,本文介绍了 ω- 正则奖励机器,用于强化学习中的非马尔可夫奖励的表达,提出了一个模型无关的 RL 算法来计算针对 ω- 正则奖励机器的 epsilon - 最优策略,并通过实验证明了算法的有效性。
- IJCAI深度强化学习中奖励机制抽象的上下文预规划,以增强迁移能力
为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题,提出一种基于奖励机器的任务表示方法,使用抽象状态图与任务奖励动态的相互作用诱导子任务,从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明,该方法在各个 - 基于奖励机制的强化学习在随机博弈中的应用
本文探讨了利用奖励机制来实现高级任务的多智能体强化学习算法 QRM-SG,能在 Nash 平衡下在多智能体系统中学习最优策略,并且在三个案例研究中证明了其有效性。
- 基于奖励机器的自适应强化学习
本研究提出一种基于奖励机制的自适应学习算法,它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率,并在长期规划任务中取得了可靠的最优行为。
- 合作多智能体任务中的奖励机器学习
本文提出了一种新的多智能体强化学习方法,该方法将合作任务分解与学习奖励机器相结合,以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质,并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学 - 深度强化学习中的嘈杂符号抽象:以奖励机器为案例研究
本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
- 奖励机器的层次结构
提出了一种通过赋予奖励机器能够调用其他奖励机器的能力从而形成奖励机器层级结构的形式化方法,并使用课程学习方法从代理观察到的示例跟踪中诱导奖励机器层级结构。实验证明,与平面奖励机器相比,利用手工建立的奖励机器层级结构可以更快地收敛,并且学习奖 - 奖励机器:在强化学习中利用奖励函数结构
该论文介绍了如何使用奖励机制来支持强化学习中的学习过程,并探讨了如何通过奖励机制结构的利用,来提高样本利用率和最终策略的质量。
- 协作多智体强化学习的奖励机器
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
- MM强化学习奖励机制和政策的联合推理
研究了如何通过迭代算法将奖励机器与 q-learning 相结合,以便在复杂任务中实现快速政策优化。