Sep, 2021

ThriftyDAgger: 交互式模仿学习中的预算感知新颖性和风险控制

TL;DR本文介绍了 ThriftyDAgger 算法,针对需要在线人工反馈和干预的机器人学习问题,提出了在规定的干预预算内主动询问人类监管者的方法,并通过实验发现其干预策略更加有效平衡了任务表现和监管者负担,同时提高了人和机器人的性能。