Feb, 2022

序列决策问题中的零-shot辅助

TL;DR本文研究如何创建助手来帮助代理人解决新的顺序决策问题,介绍了一种新的辅助形式来模拟代理人的偏见,并提出了一种新的规划方法来缩放大型的决策问题,目的是为了获得比基于自动化的替代方案更高的累计奖励,最后我们证明了将建议和自动化相结合的方法比仅使用建议具有更好的性能,尽管会失去一些安全保证。