sparse attention | BriefGPT

关键词sparse attention

搜索结果 - 32

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制
通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。
PDF8 days ago
MoA: 自动大规模语言模型压缩的稀疏注意力混合
稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文
PDF11 days ago
自适应结构稀疏注意力的长环境 LLM 推理近无损加速
本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。
PDF15 days ago
CVPR视觉 Transformer 中的区域与稀疏注意力融合
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。
PDF19 days ago
基于高斯分布输入的自然稀疏注意力
通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。
PDF3 months ago
分割引导稀疏变换器用于底层显示摄像头图像修复
在本文中，我们观察到在使用 Vision Transformer 进行 UDC 受损图像恢复时，全局注意机制会采样大量冗余信息和噪音。基于此发现，我们提出了一种基于分割引导的稀疏 Transformer 方法（SGSFormer），用于从
PDF4 months ago
ACC-ViT: 视觉 Transformer 中空洞卷积的回归
通过从视觉感知中汲取灵感进行注意机制创新，Transformer 已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的 Atrous Attention，它能够自适应地整合局部和全局信息，并保持层次关系，提出了一种通用的混合式视觉
PDF4 months ago
SCCA：长上下文语义扩展的偏移交叉块注意力
通过 Shifted Cross Chunk Attention (SCCA) 结合 Dilated Attention (DA) 和 Dilated Neighborhood Attention (DNA) 的方法，本研究在语言建模实验中
PDF7 months ago
基于稀疏注意力的代码分类神经网络
通过使用稀疏注意力机制的神经网络，我们介绍了一种名为 SACC 的方法用于代码分类任务，其中把源代码分为子树序列，并使用递归神经网络编码以及 Transformer 模型进行分类，证明了其在代码分类任务中的有效性和效率。
PDF8 months ago
修剪自注意力的零样本多说话者文本转语音
为了实现个性化的语音生成，我们提出了一种基于稀疏关注机制的剪枝方法，用于增强 TTS 模型的泛化能力。该方法通过删除注意力权重低于阈值的冗余连接，灵活确定剪枝强度，同时改进了语音质量和说话人相似性。
PDF10 months ago
ICCV行动分割需要多少时间长期上下文？
通过引入基于 Transformer 的模型来利用稀疏注意力捕捉视频的全部上下文，本研究比较了当前三个时序动作分割数据集（即 50Salads、Breakfast 和 Assembly101）上的最新模型，在实验中证明了对于时序动作分割，建
PDF10 months ago
学习图像去雨变换网络 with 动态双自注意力
该论文提出了一种基于 Transformer 的图像去雨算法，结合了密集和稀疏自注意力机制，通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。
PDFa year ago
CVPRSparsifiner：学习稀疏实例相关注意力以提高视觉 Transformer 的效率
本文提出了一种基于学习的、实例相关的注意力机制来加速 Vision Transformers 网络，其将自注意力操作限制在空间上邻近的一组 Token 上，并通过轻量级的连接性预测器模块评估 Token 之间的连接得分来解决由结构化注意力模
PDFa year ago
CVPRBiFormer: 具有双层路由注意力的视觉 Transformer
介绍了一种新的基于动态稀疏注意力和双层路由的注意力机制，用于实现内容感知的计算分配；其中，提出了一个名为 BiFormer 的新型通用视觉 Transformer，采用 “查询自适应” 的方式进行计算，以提高计算效率，并在图像分类、物体检测
PDFa year ago
Transformer meets Stochastic Block Model: 数据自适应稀疏性和成本的注意力
本研究提出了 SBM-Transformer 模型，利用基于混合成员资格随机块模型（SBM）的稀疏注意力来解决二次成本问题，并证明了 SBM-Transformer 是任意序列到序列函数的通用逼近器，同时在 LRA 和 GLUE 基准测试中
PDF2 years ago
基于分层注意力机制的高效长文档分类探索
本研究开发并发布了使用分段编码器，并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型，在多个长文档下游分类任务中，我们的最佳 HAT 模型在使用 10-20％ GPU 内存的情况下比同等大小的 L
PDF2 years ago
基于 Transformer 的自适应稀疏和单调注意力自动语音识别
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。
PDF2 years ago
SDBERT: SparseDistilBERT，一个更快、更小的 BERT 模型
本文介绍了一种新的 Transformer 架构 - SparseDistilBERT，使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度，本文实现的 SparseDistilBERT 在
PDF2 years ago
SALO: 一种高效的空间加速器，支持长序列的混合稀疏注意机制
本文提出了一种名为 SALO 的加速器，能够使得 Transformer 等注意力机制在处理长序列时具有更好的性能，并通过实验证明 SALO 相比于典型工作负载下的 GPU 和 CPU 实现，分别具有 17.66 倍和 89.33 倍的加速
PDF2 years ago
SIGIR结构感知稀疏注意力模型用于理解长编程语言
本文提出了一种名为 SASA 的结构感知稀疏注意机制用于长代码理解任务。SASA 采用 top-k 稀疏关注机制和基于抽象语法树的结构感知关注机制，能够高效降低计算成本并处理长代码，实现了优于竞争基准模型的表现。
PDF2 years ago