- 一个在线代理能够高效学习均场博弈
使用在线样本,无需先验知识的状态 - 动作空间、奖励函数或转移动态,通过值函数 (Q) 更新策略,同时评估均场状态 (M),以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。
- 自监督表示学习的模型预测控制
使用重建函数的 TD-MPC 框架结合模型自由与模型基础学习方法,提高样本效率,改进控制任务的性能。
- 资产折旧下的强化学习
本文提出了一种考虑资产价值随时间衰减的强化学习方案,通过资产折旧观念、贝尔曼方程等理论,提出了一种模型无关的学习方法来获得最优策略。
- 从逐步优化策略梯度的角度重新审视 LQR 控制
本文探讨了离散时间线性二次调节器问题,并从后退视角政策梯度的角度重新审视它,介绍了 RHPG 用于控制应用的无模型学习框架,并提供了一种精细的样本复杂性分析方法,以学习在不知道稳定控制策略情况下的控制策略,并证明了 RHPG 在具有流线型分 - AAAI基于双阶段 GAN 的连续轨迹生成
本文提出了一种名为 TS-TrajGen 的新颖的两级生成对抗框架,它有效地将人类移动性问题的先前领域知识与无模型学习范例相结合,用于生成道路网络上的连续轨迹,并通过两个真实世界数据集和两个案例研究验证了该方法的有效性。
- CostNet: 目标导向强化学习的端到端框架
本文引入一种新的强化学习算法,通过学习马尔可夫决策过程中两个状态之间的距离来预测,距离度量作为内在奖励被用于推动智能体的学习。实验结果表明,相比于模型无关的强化学习,该算法在多个测试环境中具有更好的样本效率。
- ICMLPackIt: 几何规划的虚拟环境
介绍了一个名为 PackIt 的虚拟环境,用于评估和学习几何规划的能力,其中代理需要采取一系列行动将一组物体装入有限空间的箱子中,并研究了多种基准和优化方法,包括无模型的基于学习和基于启发式的方法,以及基于搜索的优化方法。
- 针对均场博弈和控制问题的统一强化学习 Q-Learning
本研究提出了一种强化学习算法,通过调整两个学习参数的比例,同一算法可以学习解决无限时间视角的均值场游戏与控制问题,并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题,并使用 - MM基于模型无关的无监督学习方法解决带约束优化问题
本文提出一种无模型学习框架来解决无法推导出目标函数或限制条件的优化问题,同时将神经网络用于参数化所需优化的函数、参数化瞬时限制条件相关的拉格朗日乘数以及逼近未知的目标函数或限制条件。数值和模拟结果验证了所提出的框架的有效性,并以功率控制问题 - 具有动态感知的无监督技能发现
通过结合基于模型的和基于非模型的机器学习方法,本文提出了一种无监督学习算法 DADS,用于发现易于预测的行为和学习它们的动态,提高了规划算法的效率和性能。
- 人机交互中模型学习的效用
本文探讨了在机器人学中,构建世界显式模型和直接学习策略两种不同的方式,以及在人机交互中如何应用心理理论对机器人对人的建模对性能的影响,同时也考虑了理论假设不准确时的影响。
- 具有随机集合值扩展的样本有效强化学习
提出了一种名为 “随机集合价值扩展(STEVE)” 的新型基于模型的技术,通过动态插值来消除模型中的错误,与以往的基于模型的方法不同,该方法在复杂环境下不会降低性能,并在具有挑战性的连续控制基准测试中提高了一个数量级的样本效率。
- 一种基于策略搜索的时间逻辑指定强化学习任务方法
本文提出了一种基于时间逻辑规范的强化学习策略搜索方法,通过将时间逻辑公式转化为实值函数,来指导策略搜索过程,从而避免手动调整奖励函数的繁琐操作。