May, 2020

广义熵正则化或者:标签平滑并没有什么特别之处

TL;DR研究发现标签平滑具有不可避免的局限性,提出了一族熵正则化技术以解决这一问题,并探究其对语言生成任务中模型性能和稀疏性的影响。