ICLRNov, 2021

神经内核赌博机中表示学习与探索的实证分析

TL;DR本文介绍了在非线性结构数据中使用 NK-GPs 进行 policy learning 的方法,并比较了 GP 和 Student's t-process(TP)两种方法的表现,提出了一个用于独立测量算法学习表现和探索能力的框架,并探讨了训练频率和模型分区等实际考虑因素。