BriefGPT.xyz
Ask
alpha
关键词
expert trajectories
搜索结果 - 5
每步严密观察!通过迭代的步骤级过程优化学习的 LLM Agent
采用 Monte Carlo 方法为 Iterative step-level Process Refinement (IPR) 框架提供步骤级奖励,通过与专家轨迹进行对比评估,从中识别差异并生成对比动作对,用于训练模型,实验证明该框架在提
→
PDF
19 days ago
通过控制有效的规划视野进行离线模仿学习
通过控制有效计划视域,我们纠正了常见离线模仿学习算法中的近似误差问题,从而提升了算法的性能。
PDF
6 months ago
通过与平滑高质量专家轨迹的对齐实现高效的数据集精炼
本文提出了一种数据集蒸馏的方法,通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率,并提出代表性初始化、均衡内环损失和权重摄动等增强策略,以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明,该方法在各种规模、大小和分辨率的数
→
PDF
9 months ago
自主驾驶规划中基于层次模型的模仿学习
使用 MGAIL 在密集城市自动驾驶方面进行了第一次大规模应用,通过使用分层模型和经过现实汽车采集的经验轨迹进行性能度量,并结合闭环 MGAIL 损失和开环行为克隆损失实现了稳健的导航策略。
PDF
2 years ago
随机专家蒸馏:通过专家策略支持来进行模仿学习估计
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
PDF
5 years ago
Prev
Next