BriefGPT.xyz
大模型
Ask
alpha
关键词
long-sequence modeling
搜索结果 - 3
VL-Mamba: 多模式学习中的状态空间模型探索
通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多
→
PDF
3 months ago
线性动力学嵌入神经网络用于长序列建模
长序列建模中性能和计算效率之间的权衡成为现有模型的瓶颈,本文基于控制理论中具有多输入和多输出的连续状态空间模型(SSMs),提出了一种新型神经网络,称为线性动力学嵌入神经网络(LDNN)。通过对角化和解耦然后快速傅里叶变换(FFT)的两种高
→
PDF
4 months ago
面向百万级依赖建模的长序列模型的统一视图
本文探讨了 Transformers 在长序列建模中的应用,并提出了一种处理百万级依赖关系的机器学习系统,其中的分布式多头注意力机制可提高 40 倍的计算效率。
PDF
a year ago
Prev
Next