关键词multi-head attention
搜索结果 - 88
- ICML优化的分组查询注意机制用于变形金刚PDF13 days ago
- 跳跃层注意力:在 Transformer 中连接抽象和详细依赖关系PDF17 days ago
- BlockPruner:大型语言模型的细粒度剪枝PDF19 days ago
- 分析特洛伊 BERT 模型的多头注意力PDF22 days ago
- DHA:通过自适应头融合从 Transformer 检查点学习分离头注意力PDFa month ago
- 多头注意力自动剪枝PDFa month ago
- 时间的重要性:通过强大的用户停留时间注入来增强预训练新闻推荐模型PDFa month ago
- ICML通过动态组合的多头注意力机制改进 TransformerPDF2 months ago
- Transformer 技巧:去除跳过机制的权重PDF3 months ago
- 使用 URL 的上下文特征,顺序深度学习模型在检测网络钓鱼网站方面的性能PDF3 months ago
- LATTE:用于高效 Transformer 的可训练阈值头部低精度近似注意力PDF3 months ago
- 基于多头注意力的深度多示例学习PDF3 months ago
- CHAI: 集群化头部注意力用于高效的 LLM 推断PDF4 months ago
- 自动驾驶中视觉变形器研究综述:现状和未来发展方向PDF4 months ago
- 建筑如何影响预训练语言模型的基本能力?基于 FFN-Wider Transformer 模型的案例研究PDF4 months ago
- LongHeads:多头注意力暗地里是一个长上下文处理器PDF5 months ago
- Transformer 的好处:在无结构数据的线性回归任务中的上下文学习PDF5 months ago
- 多头注意力在上下文线性回归中的优势PDF5 months ago
- Sliceformer:在判别任务中将多头注意力变得简单如排序PDF8 months ago
- PTSR:图像超分辨率的补丁翻译器PDF8 months ago
Prev