本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明,使用近似抽象可以减少任务复杂度和行为最优性的损失。
Jan, 2017
使用强化学习 RLQP 策略自动调整参数,加速求解二次优化问题,与现有算法相比,RLQP 能显著提高性能并普适适用于不同应用场景。
Jul, 2021
提出了一种新的零阶演员评论家算法(ZOAC),将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中,解决了两种算法的缺陷,获得了更高的样本效率和更强的鲁棒性。
Jan, 2022
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
提出了一种基于 HyperAgent 的强化学习框架,通过超模型、索引采样方案和增量更新机制,在资源约束下实现对复杂任务的简化、高效和可伸缩性,以及超越共轭的通用值函数近似下的计算高效的顺序后验近似和数据高效的动作选择。
Feb, 2024
本论文重新审视了启发式函数在规划中的模仿学习中的必要和充分条件,并针对给定的前向搜索算法的变体提出了一族基于排名的损失函数。另外,从学习理论的角度讨论了为什么优化成本 - 目标 h * 是不必要困难的。实验比较在多样化的问题集上明确地支持了得出的理论。
Oct, 2023
提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法,该训练范式提供了有效的探索和更好的泛化能力,相比现有的集成模型,我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50%,同时还包括系统性的研究以展示我们 RL 算法的探索策略。
Jun, 2018