Feb, 2024

通过寻求帮助避免连续空间中的灾难

TL;DR通过假设每个回合的付出代表避免灾难的机会,我们提出了一种上下文匹配问题的变体,目标是尽量减少灾难的可能性,进而通过最大化付出的乘积来尽量避免灾难的总体机会。我们提供了一个算法,可以在时间范围增长时使后悔和对导师提问的频率都趋近于 0,假设有一个连续的 1D 状态空间和相对简单的付出函数。同时,我们提供了一个匹配的下界:在没有简单假设的情况下,任何算法要么持续寻求帮助,要么几乎肯定会造成灾难。最后,我们确定了将我们的算法推广到多维状态空间的关键障碍。