Dec, 2023

加固关注中的最短支点:增强大型语言模型的上下文感知能力以实现有效的工具使用

TL;DR提出了一种名为Attention Buckets的新推理方法,通过并行处理每个过程来处理上下文,每个过程都具有独特的RoPE角度基准,塑造了注意力波形,从而保证了模型不会错过注意力凹槽内的重要信息,从而增强了LLMs的性能。