Dec, 2016

具有时态逻辑奖励的强化学习

TL;DR本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中,表现出了优异的鲁棒性能。