关键词maximum entropy inverse reinforcement learning
搜索结果 - 4
- 基于能量模型的最大熵逆强化学习中的扩散模型
我们提出了一种最大熵反向强化学习 (IRL) 方法,用于改善扩散生成模型的样本质量,尤其是在生成时间步骤较少的情况下。通过训练或微调扩散模型,我们使用从训练数据估计的对数概率密度来训练(或微调)扩散模型。我们采用基于能量的模型 (EBM) - 通过逆强化学习识别基于随机模型预测控制车辆的反应感知驾驶风格
自动驾驶车辆中的驾驶风格通过以加权特征描述并捕捉车辆的反应感知特征,使用改进的最大熵逆强化学习方法从演示轨迹中识别驾驶风格,并通过 MATLAB 模拟和现有实验进行验证。
- 深度反向 Q 学习与约束
提出了一种新的算法类,仅需要解决一次 MDP 就能恢复专家策略,在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数,可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。
- GraphOpt: 学习图形构建的优化模型
GraphOpt 是一种结构形成的图形优化框架,采用最大熵反强化学习算法以及具有可扩展性的连续潜在行动空间,学习隐含的图形目标函数来解释所观察到的图形属性,并在未经训练的情况下实现竞争性链接预测性能。