Feb, 2024

从状态轨迹中学习规划行动模型

TL;DR通过学习状态轨迹开始,本文探索了在未提供学习动作参数时的学习情况,定义了两个追踪质量级别,并提出了相应的算法。实验评估表明,提出的算法相对于现有的学习工具 FAMA,速度更快,可以处理更大的输入,并提供更接近参考模型的学习动作模型。