ICLRJun, 2020

神经网络分类任务中使用平方误差与交叉熵训练的结构评估

TL;DR本文提供证据表明,对于 NLP 和 ASR 任务,使用方块损失函数进行神经网络训练,可以获得比交叉熵更好的效果,并且可以提高计算资源的利用率。我们认为,使用方块损失函数需要成为现代深度学习最佳实践的一部分,与交叉熵在平等基础上竞争。