NIPSMay, 2018

使用 Sinkhorn 策略梯度学习排列

TL;DR本文提出了 Sinkhorn Policy Gradient (SPG) 算法,它使用了温度控制的 Sinkhorn 层独特分离状态空间和高度结构化的置换操作空间的表示学习,取得了排序、欧几里得 TSP 和匹配任务的有竞争力的表现,并且可以有效地学习有用于推理置换的表示。