Jun, 2023

TART: 适用于任务无关推理的即插即用的Transformer模块

TL;DR提出了一种名为TART的任务无关的Transformer-based推理模块,使用一组合成功能,来提高不同种类、大小和模态的预训练模型(包括视觉和语音模型)在多个NLP分类任务上的性能,甚至使得GPT-Neo(125M)的性能超过BLOOM(176B),与GPT-3(175B)的性能相差不到4%。