使用 Sinkhorn 策略梯度学习排列
该论文探讨了一种基于 Sinkhorn 规范化的 DSM 排名函数学习技术,通过 SinkProp 算法,该技术可应用于各种基于梯度的排序学习模型,并展示了在多个信息检索数据集上的实用性。
Jun, 2011
介绍了一系列以连续 Sinkhorn 运算符来近似离散最大权匹配的新方法,应用在排序数字,拼图和鉴别神经信号等任务中,并且在竞争基线上取得了更好的效果。
Feb, 2018
本文提出了一种最大熵策略优化框架,该框架明确地鼓励参数探索,并表明这个框架可以被归约为一个贝叶斯推理问题。然后,我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG),该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上,我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。
Apr, 2017
本研究使用排列推理的方法来搜索有向无环因果模型,并在后者的基础上开发了一类算法,即 GRaSP,通过置换操作 tuck 使其更为高效和稳健,能够在对符合因果性条件的假设要求较弱的情况下进行点差一致性的搜索,性能优于很多现有的因果搜索算法,尤其是在面对数量庞大和比较密集的图结构时也能表现出色。
Jun, 2022
本文提出了一种叫做 Graph Policy Gradients (GPG) 的新算法,使用图卷积神经网络 (GCN) 来参数化机器人的策略,处理大量的同构机器人问题,并且证明实验证明,与采用完全连接网络的现有强化方法相比,我们提出的方法能够更好地扩展。更重要的是,我们通过使用局部学习的筛选器,证明了能够将仅在三个机器人上训练的策略 “零 - shot” 传输到 100 多个机器人。
Jul, 2019
该研究提出了一种新的基于分数的算法(SP 算法)来学习贝叶斯网络或有向无环图(DAG)模型,该算法在弱于忠实性假设的条件下具有一致性保证,并且在一些小 DAG 的模拟中表现出与其他算法相比的优越性。
Jul, 2013
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.
Jun, 2017
本文提出了一种基于深度学习的任务(visual permutation learning),通过使用 Sinkhorn 迭代生成本质上是连续的双随机矩阵的方法,建立了一个名为 DeepPermNet 的端到端卷积神经网络模型,成功地应用于两个具有挑战性的计算机视觉问题,并在相关数据集上实现了最优化的性能,在深度学习和排列学习领域有着广泛的应用价值。
Apr, 2017
提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。
Jan, 2018
本研究提出了一种基于 Scaled Gradient Projection 方法的神经网络演化学习算法,通过横跨重要梯度空间的基向量缩放梯度来避免老任务信息的灾难性遗忘,优化新学习表现,实验证明其在各种任务中性能均优于目前最先进的方法。
Feb, 2023