关键词kullback-leibler regularization
搜索结果 - 5
- 多任务强化学习中的知识精炼优化传递
通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度,进一步提高多任务强化学习的数据效率,并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程,优于多任务学习中的几个基准模型。
- CVPRSLACK: 带有冷启动和 KL 正则化的数据增强稳定学习
本研究提出了一种无需先前知识直接学习数据扩增策略的方法,并使用 Kullback-Leibler regularization 和连续分布参数化解决了双层优化问题和搜索空间更大的问题,最终在标准基准测试上取得了有竞争力的结果。
- 通过优势学习施行 KL 正则化的一般 Tsallis 熵强化学习
通过强制隐式 Kullback-Leibler(KL)正则化来提高 Maximum Tsallis entropy(MTE)框架对非闭合形式 Tsallis 熵的误差鲁棒性。提出的 Tsallis Advantage Learning(TA - Q-Munchausen 强化学习
本文针对 Munchausen 强化学习在 Tsallis sparsemax 策略下无法表现出优越性能的问题,提出了基于 Tsallis Entropy 的 $q$-logarithm/exponential 方法,解决了传统 logar - 利用平均值:RL 中 KL 正则化的分析
本文探讨强化学习中的 KL 正则化,发现其内在地平均了 q-values,并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的,误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况