Jan, 2024

有限误差在线学习中反馈价格的界限

TL;DR改进了几种在线学习场景的最坏情况边界,包括延迟模糊强化学习、函数族组合学习、犹豫学习等,并解决了多类学习中反馈价格问题和多输入延迟模糊强化学习的边界问题。