Feb, 2024

通过概括研究超调整的有效性

TL;DR基于 Gisting 的超网络是经济且易于实现的方法,能够使用改进的注意力掩码将信息压缩为更少的令牌表示形式。在实验中展示了 HyperLlama 模型可以将少样本示例中的信息有效地压缩为软前缀,并且这些软前缀可以作为更好的初始化方式进行进一步的前缀调优。然而,与完全关注少样本内文示例的多任务微调语言模型相比,它们的经验性能表现参差不齐。