EMNLPDec, 2021

重新考虑过去:语言模型中隐藏状态的优化

TL;DR本研究提出了基于梯度的隐藏状态优化(HSO)方法,提高了 transformer 语言模型在推断时的性能,尤其在评估模型训练分布之外的数据集时表现出色,且在 few-shot 评估方面也有改进。