BriefGPT.xyz
Oct, 2024
上下文缩放与任务缩放在上下文学习中的比较
Context-Scaling versus Task-Scaling in In-Context Learning
HTML
PDF
Amirhesam Abedsoltan, Adityanarayanan Radhakrishnan, Jingfeng Wu, Mikhail Belkin
TL;DR
本研究解决了变压器在上下文学习中的两个关键组成部分:上下文缩放和任务缩放。通过提出一种简化的变压器架构,研究表明这种架构在多种统计学习任务中与原始的GPT-2模型具有可比的表现,且通过结合特征映射与多层感知器,可以实现上下文缩放和任务缩放的双重优势。此研究为深入理解上下文学习提供了新的实验设置。
Abstract
Transformers
exhibit
In-Context Learning
(ICL), where these models solve new tasks by using examples in the prompt without additional training. In our work, we identify and analyze two key components of ICL: (1)
→