Dec, 2023

预训练 Transformer 的非参数变分正则化

TL;DR当前大规模预训练和微调 Transformer 大型语言模型的范式在自然语言处理方面取得了显著的进展,然而这种大型模型容易在训练数据上过拟合,在领域变化时性能表现差,而将非参数变分信息瓶颈(NVIB)框架扩展到 Transformers 的所有类型的注意力函数可以解决过拟合问题,改变初始化可以引入一种新的基于信息论的后训练正则化的注意机制,提高领域外泛化能力,这证实了预训练的 Transformer 模型隐式地是 NV 贝叶斯模型。