ICLRMay, 2017

结构预测的 Softmax Q 分布估计:RAML 的理论解释

TL;DR介绍了一种用于直接优化结构化预测任务中奖励函数的学习框架 Reward augmented maximum likelihood(RAML),其理论解释基于 softmax Q - 分布估计,并给出 RAMl 与贝叶斯决策理论之间的关系, 通过实验证明 RAMl 可以提高结构化预测任务的最大似然基准。