关键词supervised learning objective
搜索结果 - 2
- 朝向上下文感知的领域泛化:用置换不变网络表示环境
输入 $X$ 的上下文信息可以改善深度学习模型在新领域或生产环境中的预测能力。我们提出了上下文的概念,作为一组数据点的排列不变表示,共同学习于标准监督学习目标,为未知结果提供增量信息。我们通过理论分析和实证评估证明了该方法的有效性,并对其鲁 - ICML使用翻硬币的方法估计强化学习中的假计数以进行探索
我们在高维状态空间中提出了一种新的基于计数的探索方法,通过平均来自 Rademacher 分布(或硬币翻转)的样本,得到计数,并使用一个简单的监督学习目标进行优化,可以获得状态的访问计数。此方法在 9 个具有挑战性的探索任务中表现优异,并优