BriefGPT.xyz
Feb, 2022
序列决策问题中的零-shot辅助
Zero-Shot Assistance in Novel Decision Problems
HTML
PDF
Sebastiaan De Peuter, Samuel Kaski
TL;DR
本文研究如何创建助手来帮助代理人解决新的顺序决策问题,介绍了一种新的辅助形式来模拟代理人的偏见,并提出了一种新的规划方法来缩放大型的决策问题,目的是为了获得比基于自动化的替代方案更高的累计奖励,最后我们证明了将建议和自动化相结合的方法比仅使用建议具有更好的性能,尽管会失去一些安全保证。
Abstract
We consider the problem of creating
assistants
that can help agents - often humans - solve novel
sequential decision problems
, assuming the agent is not able to specify the reward function explicitly to the assis
→