TL;DR本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中,表现出了优异的鲁棒性能。
Abstract
reinforcement learning (RL) depends critically on the choice of reward
functions used to capture the de- sired behavior and constraints of a robot.
Usually, these are handcrafted by a expert designer and represent heuristics
for relatively simple tasks. Real world applications typicall
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。