BriefGPT.xyz
大模型
Ask
alpha
关键词
long sequence modeling
搜索结果 - 2
Mamba-360:状态空间模型作为长序列建模的 Transformer 替代方案调研:方法、应用和挑战
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范
→
PDF
2 months ago
ERNIE-SPARSE: 基于自注意力正则化的分层高效 Transformer 学习
提出 ERNIE-Sparse 模型,它包含两个不同的部分:分层稀疏 Transformer(Hierarchical Sparse Transformer,HST)和自注意力正则化(Self-Attention Regularizatio
→
PDF
2 years ago
Prev
Next