MMApr, 2017

Softmax 函数的特性及其在博弈论和强化学习中的应用

TL;DR本文利用凸分析和单调算子理论来推导 softmax 函数的其他性质,揭示其与对数 - 求和 - 指数函数之间的单调梯度映射关系,同时利用这种联系表明了其反温度参数决定了 softmax 函数的 Lipschitz 和共同强制性质,并通过一个游戏理论强化学习的应用展示了这些性质的有用性。