Dec, 2023
加固关注中的最短支点:增强大型语言模型的上下文感知能力以实现有效的工具使用
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
TL;DR提出了一种名为Attention Buckets的新推理方法,通过并行处理每个过程来处理上下文,每个过程都具有独特的RoPE角度基准,塑造了注意力波形,从而保证了模型不会错过注意力凹槽内的重要信息,从而增强了LLMs的性能。