Jan, 2024

批处理 - ICL: 有效、高效和无序背景学习

TL;DR通过将上下文学习(ICL)视为元优化过程,本文解释了为什么 LLMs 对 ICL 示例的顺序敏感,从而引导我们开发了一种有效、高效且无序的 ICL 推理算法 Batch-ICL。与标准的 N-shot 学习方法不同,Batch-ICL 使用 N 个独立的 1-shot 前向计算,并聚合得到的元梯度,然后将这些聚合的元梯度应用于零 - shot 学习以生成最终预测。该批处理方法使 LLM 对 ICL 示例的顺序不敏感。通过大量的实验和分析,我们证明 Batch-ICL 一直优于大多数示例序列的排列。在某些情况下,它甚至超过了标准 ICL 的最佳顺序的性能,同时减少了所需的计算资源。此外,我们还开发了一种新颖的 Batch-ICL 变体,具有多个 “epochs” 的元优化,这种变体隐式地探索 ICL 示例的排列,进一步增强了 ICL 的性能。