Feb, 2024

意图对齐:离线优化传输的模仿学习

TL;DR通过从环境中观察专家,尽管没有明确的奖励或动作标签,但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法,在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示,定义了内在奖励函数,改善了其他线下强化学习算法在稀疏奖励任务中的性能,并超过了 D4RL 基准的最新线下模仿学习算法。