关键词multi-head attention
搜索结果 - 88
  • ICML优化的分组查询注意机制用于变形金刚
    PDF13 days ago
  • 跳跃层注意力:在 Transformer 中连接抽象和详细依赖关系
    PDF17 days ago
  • BlockPruner:大型语言模型的细粒度剪枝
    PDF19 days ago
  • 分析特洛伊 BERT 模型的多头注意力
    PDF22 days ago
  • DHA:通过自适应头融合从 Transformer 检查点学习分离头注意力
    PDFa month ago
  • 多头注意力自动剪枝
    PDFa month ago
  • 时间的重要性:通过强大的用户停留时间注入来增强预训练新闻推荐模型
    PDFa month ago
  • ICML通过动态组合的多头注意力机制改进 Transformer
    PDF2 months ago
  • Transformer 技巧:去除跳过机制的权重
    PDF3 months ago
  • 使用 URL 的上下文特征,顺序深度学习模型在检测网络钓鱼网站方面的性能
    PDF3 months ago
  • LATTE:用于高效 Transformer 的可训练阈值头部低精度近似注意力
    PDF3 months ago
  • 基于多头注意力的深度多示例学习
    PDF3 months ago
  • CHAI: 集群化头部注意力用于高效的 LLM 推断
    PDF4 months ago
  • 自动驾驶中视觉变形器研究综述:现状和未来发展方向
    PDF4 months ago
  • 建筑如何影响预训练语言模型的基本能力?基于 FFN-Wider Transformer 模型的案例研究
    PDF4 months ago
  • LongHeads:多头注意力暗地里是一个长上下文处理器
    PDF5 months ago
  • Transformer 的好处:在无结构数据的线性回归任务中的上下文学习
    PDF5 months ago
  • 多头注意力在上下文线性回归中的优势
    PDF5 months ago
  • Sliceformer:在判别任务中将多头注意力变得简单如排序
    PDF8 months ago
  • PTSR:图像超分辨率的补丁翻译器
    PDF8 months ago
Prev