关键词transformer encoder-decoder architecture
搜索结果 - 4
- 语义修正的阿姆哈拉语自动语音识别
通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正,我们的研究提高了阿姆哈拉语语音识别系统的语义正确性,实现了 5.5%的字符错误率(CER)和 23.3%的词错误率(WER)。
- 使用 Transformer 的视觉跟踪
本文介绍了一种基于 Transformer 编码器 - 解码器架构和强有力的注意机制的新型追踪器网络,通过自我关注模块和交叉注意力,提高了全局和丰富的背景信息获取,支持超越局部特征的追踪效果,在多个基准测试上表现出优异的性能。
- CVPR基于 Transformer 的端到端人 - 物交互检测
本文提出了一种基于 transformer 的编码器解码器框架,直接从图像中预测一组 <人,对象,交互> 三元组,通过此预测方法,我们的算法在不需要耗时的后处理的前提下,有效地利用图像中的固有语义关系,并实现了在对象检测后不到 1ms 的推 - 使用 Transformer 进行端到端的目标检测
该研究提出了一种新方法,将目标检测作为直接集合预测问题进行处理,主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型,能够高效地完成目标检测和全景分割任务,相较于许多现代检测器,DETR 模型概念