Feb, 2023

交换式目标条件离线强化学习

TL;DR本研究提出了一种离线目标条件强化学习方法,其中包括了通过目标交换产生其他轨迹,以及一个名为确定性 Q - 优势策略梯度的算法,它能够降低噪声和推断误差,与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异,且在具有挑战性的手部操作任务中表现尤为出色。