Feb, 2024

高效上下文强化学习与不完全信息反馈图

TL;DR通过在线回归将参数图学习与无信息判定相结合,该研究开发了第一个可用于无信息设置的情境算法,并证明使用对数损失可以获得有利的后悔保证。