Oct, 2022
样本后优化批量神经汤普森采样
Sample-Then-Optimize Batch Neural Thompson Sampling
Zhongxiang Dai, Yao Shu, Bryan Kian Hsiang Low, Patrick Jaillet
TL;DR文章提供了 Sample-Then-Optimize 批量神经 TS (STO-BNTS) 和 STO-BNTS-Linear 算法,这两种算法可以使用高度表达性的神经网络作为替代模型,绕开了推论参数矩阵的限制,并且在某些情况下具有渐近的无后悔算法证明。