Oct, 2023

学习制定注重依从性的建议

TL;DR考虑到人对人工智能建议的忽视以及人工智能在最相关时刻有选择性地提供建议的需要,本文提出了一个顺序决策模型,该模型考虑到人的依附水平并引入了一个推迟选项,以便机器能够暂时不提供建议,并提供了能够学习最佳建议政策并仅在关键时间点提供建议的学习算法。与通用强化学习算法相比,我们的专门化学习算法不仅具有更好的理论收敛性能,而且表现出强大的实证性能。