Nov, 2019

相似性能下的BERT模型泛化能力差异大

TL;DR本研究研究了同一神经网络架构在同一数据集上多次训练后是否在不同运行中进行相似的语言概括,通过在Multi-genre自然语言推理(MNLI)数据集上微调100个BERT实例并在评估自然语言推理中的句法概括的HANS数据集上对它们进行了评估,这类变异很可能是由于在局部极小值处的神经网络中出现的损失函数梯度等的不同选择而存在的,而减少变异可能需要具有更强归纳偏差的模型。