变压器辅助的语义通信
该论文提出了一种基于端到端深度神经网络结构的图像传输方法,利用现场可编程门阵列(FPGA)在实时无线信道上实现了原型测试,结果表明该系统在使用流行的 CIFAR-10 数据集时,比传统 256 正交幅度调制系统在低信噪比情况下表现更好。本文是第一篇使用视觉变换器实现和研究实时语义通信的工作。
May, 2022
本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer,它通过适应图片的结构提高了自动图像描述的性能,并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。
Apr, 2020
本研究中,我们提出了一种名为 HySAN 的新型自注意力机制,它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义,并引入挤压门来融合不同类型的自注意力网络,在三个机器翻译任务上实现了优于 Transform 的显著基线,并实现了超越最先进的 NMT 系统的卓越结果。
Nov, 2018
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
本文提出了一种文本语义传输框架,利用先进的自然语言处理技术对句子进行建模和编码,以实现鲁棒传输。该方法利用神经网络和注意机制在具有挑战性的无线环境中提供可靠高效的文本数据传输,通过对语义相似性和双语评估的模拟结果证明了该模型的优越性。
Jul, 2023
本文提出了一种新的 Transformer 结构,即 Transformer iN Transformer(TNT),旨在提高图像处理中变换器的性能,通过在局部感知机制内利用可忽略计算成本的注意力机制以进一步将图像局部细化,从而在 ImageNet 基准测试中实现了 81.5% 的 Top-1 准确率,较相似计算成本的最先进的可视变换器高出 1.7%。
Feb, 2021
在视觉 - 语言预训练框架中,通过提供语义上有意义的视觉标记给 transformer 编码器,本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制,并通过使用现成的分割和场景图模型,提取了实例分割掩码(称为有形标记)和关系动作(称为无形标记)的表示,从而在视觉 side 的 transformer 预训练中引入了这些新增的标记,并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明,在 COCO 数据集上,相比 ViTs,在文本到图像(+47%)和图像到文本(+44%)检索任务中学到了更好的表示质量,并且在组合性评估基准(如 ARO(+18%)和 Winoground(+10%))上展示了优势。
May, 2024