expert trajectories | BriefGPT

关键词expert trajectories

搜索结果 - 5

每步严密观察！通过迭代的步骤级过程优化学习的 LLM Agent
采用 Monte Carlo 方法为 Iterative step-level Process Refinement (IPR) 框架提供步骤级奖励，通过与专家轨迹进行对比评估，从中识别差异并生成对比动作对，用于训练模型，实验证明该框架在提
PDF19 days ago
通过控制有效的规划视野进行离线模仿学习
通过控制有效计划视域，我们纠正了常见离线模仿学习算法中的近似误差问题，从而提升了算法的性能。
PDF6 months ago
通过与平滑高质量专家轨迹的对齐实现高效的数据集精炼
本文提出了一种数据集蒸馏的方法，通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率，并提出代表性初始化、均衡内环损失和权重摄动等增强策略，以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明，该方法在各种规模、大小和分辨率的数
PDF9 months ago
自主驾驶规划中基于层次模型的模仿学习
使用 MGAIL 在密集城市自动驾驶方面进行了第一次大规模应用，通过使用分层模型和经过现实汽车采集的经验轨迹进行性能度量，并结合闭环 MGAIL 损失和开环行为克隆损失实现了稳健的导航策略。
PDF2 years ago
随机专家蒸馏：通过专家策略支持来进行模仿学习估计
本文提出一种新的模仿学习框架，通过估计专家策略的支持来计算固定的奖励函数，将模仿学习重新定位到标准的强化学习设置中，证明了该奖励函数在离散和连续域上的有效性，并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
PDF5 years ago