关键词attention patterns
搜索结果 - 13
- MoA: 自动大规模语言模型压缩的稀疏注意力混合PDF13 days ago
- 优化驾驶视觉问答模型:弥合人类与机器注意力模式的差距PDF21 days ago
- 关注驱动推理:释放大型语言模型的潜力PDF3 months ago
- 基于有界 Dyck 文法的研究案例:变压器使用短视方法不可解释PDF7 months ago
- EMNLP探索语言模型的多步推理能力的机械解释PDF8 months ago
- ACL残差注意力去偏差的强健自然语言理解PDFa year ago
- 面向任务无关的 BERT 压缩的权重继承蒸馏PDFa year ago
- 基于结构化任务训练的 Transformer 模型的系统泛化和涌现结构PDF2 years ago
- SIGIR基于实体条件的问句生成,用于神经信息检索中的鲁棒关注分配PDF2 years ago
- 注意力可以反映句法结构 (如果你允许)PDF3 years ago
- BERT 的视野有多远:基于距离的聚类和注意力分析PDF4 years ago
- 本地 GAN:为生成模型设计二维本地注意机制PDF5 years ago
- EMNLP揭示 BERT 的黑暗秘密PDF5 years ago
Prev
Next