May, 2023

模型生成的预训练信号改进了文本-文本转换器的零-shot 泛化能力

TL;DR本文探讨了模型生成信号在改善零样本泛化文本到文本转换器(如T5)中的效果。 我们研究了使用辅助模型预训练T5的各种设计,以构造更具挑战性的标记替换作为主要模型的去噪前缀。 基于这些研究,我们开发了一个新模型METRO-T0,并改进了ELECTRA-Style的预训练策略,并在多种NLP任务上进行了提示微调。METRO-T0在提示的NLP基准测试中胜过所有类似大小的基线,例如T0 Eval和MMLU,并仅使用其8%的参数即可与最先进的T0-11B模型相媲美。 我们对模型的神经激活和参数敏感性的分析表明,METRO-T0的有效性源于更平衡的参数贡献和更好的利用它们的能力。