Mar, 2020

一种更好的自举式序列训练变体

TL;DR本论文介绍了一种改进的自我监督时序训练思想,通过在 REINFORCE 算法中改变基准函数的选择来提高性能,与贪婪解码基准相比没有额外的成本。