Oct, 2024

上下文缩放与任务缩放在上下文学习中的比较

TL;DR本研究解决了变压器在上下文学习中的两个关键组成部分:上下文缩放和任务缩放。通过提出一种简化的变压器架构,研究表明这种架构在多种统计学习任务中与原始的GPT-2模型具有可比的表现,且通过结合特征映射与多层感知器,可以实现上下文缩放和任务缩放的双重优势。此研究为深入理解上下文学习提供了新的实验设置。