BriefGPT.xyz
Ask
alpha
关键词
neuralbandit
搜索结果 - 1
用于上下文强化学习问题的神经网络委员会
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包
→
PDF
10 years ago
Prev
Next