BriefGPT.xyz
大模型
Ask
alpha
关键词
state estimator
搜索结果 - 5
透过部分监督强化学习学习后见可观测部分可解释策略
通过融合监督学习和无监督学习,部分监督强化学习(PSRL)框架能够提供更可解释的策略和丰富的潜在洞察力,从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。
PDF
5 months ago
Traj-LIO: 一种鲁棒的多激光雷达多惯性测量单元状态估计器通过稀疏高斯过程
传感器套装、激光雷达、惯性测量单元、状态估计器、高斯过程
PDF
5 months ago
滤波感知模型预测控制
本文采用滤波器感知的模型预测控制方法,既考虑了不确定性的影响,又可以通过建立一个包含感知能力的模型来显著提高控制性能。
PDF
a year ago
为了最小化观测成本的主动测量强化学习
本研究提出了一种名为活跃测量 RL(Amrl)的框架,其中代理学习最大化加权回报,以平衡奖励和观察成本。我们的实证评估表明,Amrl-Q 代理能够在在线训练期间并行学习策略和状态估计器。通过使用主动策略,Amrl-Q 实现了更高的加权回报,
→
PDF
4 years ago
无需基准状态的强化学习
提出了一种简单的指示器奖励函数,以解决在连续状态空间中使用强化学习训练策略时无法基于高维观测指定奖励函数的挑战;并提出奖励平衡和奖励过滤两种方法,以进一步加速使用指示器奖励函数的模型的收敛速度,并展示了在无需知道地面实况的情况下从 RGB-
→
PDF
5 years ago
Prev
Next