关键词sliding window attention
搜索结果 - 3
- 大型语言模型是否学习类似人类的战略偏好?
我们评估 LLMs 在战略场景中是否学会进行类似人类的偏好判断,结果显示 Solar 和 Mistral 表现出稳定的基于价值的偏好,包括与人类一致的囚徒困境和旅行者困境中的利益大小效应和罚款大小效应,我们发现模型的大小、基于价值的偏好和表 - 更快的邻域注意力机制:在线程块级别降低自注意力的 O (n^2) 复杂度
邻域自注意力通过限制每个标记的注意力范围为其最近的邻居来降低自注意力的成本。这种限制通过窗口大小和膨胀因子参数化,绘制了在线性投影和自注意力之间的一系列可能的注意力模式。我们将邻域注意力表示为分批 GEMM 问题,实现了 1-D 和 2-D - Mistral 7B
Mistral 7B v0.1 是一个拥有 70 亿参数的语言模型,通过使用分组查询注意力(GQA)和滑动窗口注意力(SWA)提高了推理效率,并且还提供了一个经过调整的模型 Mistral 7B -- Instruct,在人类和自动化评测中