Jan, 2024

上下文学习的信息论分析

TL;DR通过引入新的信息论工具,我们在序列元学习上建立了一种优雅且非常通用的误差分解方法,分为三个组成部分:不可降低误差、元学习误差和任务内误差。我们应用这些工具对基于变压器的上下文学习进行分析,阐明了误差在训练序列数量和序列长度上的衰减规律。这一结果非常通用,并且避免了以往结果中对序列长度衰减进行人为混合时间假设。