本研究提出一种基于奖励机制的自适应学习算法,它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率,并在长期规划任务中取得了可靠的最优行为。
May, 2023
通过自适应学习实现自我生成任务课程,从而提高强化学习智能体的泛化能力并加速训练性能。
Jun, 2021
本文介绍了自适应多智能体强化学习 (Self-paced MARL),它可以根据任务的难度自动优化智能体数量,实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。
May, 2022
提出了一种新颖的自主强化学习算法,能够根据智能体的学习进展生成自适应课程,使智能体能够高效地解决稀疏奖励迷宫导航任务,同时减少了手动复位。
Nov, 2023
本论文研究了一个新的自适应学习方法 —— 自适应隐式规则化器,并提出了用于该方法的通用框架。该框架使用基于凸共轭理论的隐式损失函数学习最小化函数,从而能够更好地权衡避免过拟合和学习难度逐渐加大之间的关系。同时,研究还发现该方法与半二次优化方法的关系,并通过实验验证了其正确性和有效性。
Jun, 2016
该论文介绍了一种名为 SPC 的新型自动课程学习框架,该框架将课程学习应用于多智能体协调中,通过赋予学生团体不变的通信和分层技能,在不同数量的代理任务中学习合作和行为技能,并在学生策略的条件下将老师建模为一个情境式赌博机,提高了 MARL 环境下的性能、可伸缩性和样本效率。
Feb, 2023
本文介绍了自动课程学习(ACL)的相关文献,并对当前状态进行了概述,旨在促进现有概念的交叉和新思想的出现。ACL 是深度强化学习成功的中坚力量,可用于改善样本效率和渐进性能,组织探索,鼓励泛化或解决稀疏奖励问题,等等。
Mar, 2020
本文研究了一种基于精度要求自适应选择的自动课程学习的新形式。使用基于 Deep Deterministic Policy Gradient 算法的强化学习代理和解决 Reacher 环境,我们首先展示了随机采样不同精度要求训练的代理比一直很精确的代理学习更加高效;然后,我们展示了基于局部能力进度的自适应精度要求选择可以自动生成一个难度不断递增的课程,从而提高学习效率。
Jun, 2018
研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。
Oct, 2019
提出了一种框架,可以使代理能够自主识别和忽略干扰区域,从而在可学习区域中寻找新颖性,改善整体表现并避免灾难性遗忘。实验表明,代理利用该框架成功地识别了环境的有趣区域,并在性能上取得了极大的改善。
Aug, 2020