变压器辅助的语义通信

May, 2024

Transformer-Aided Semantic Communications

Matin Mortaheb, Erciyes Karakaya, Mohammad A. Amir Khojastepour, Sennur Ulukus

TL;DR通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

Abstract

The transformer structure employed in large language models (LLMs), as a specialized category of deep neural networks (DNNs) featuring attention mechanisms, stands out for their ability to identify and highlight

transformer language models attention mechanisms semantic communication compression

发现论文，激发创造

自适应语义标记选择用于 AI 原生目标导向通信

我们提出了一种新颖的 AI 本地目标导向通信设计，利用变换器神经网络在带宽和计算的动态推理约束下。

Apr, 2024

使用视觉 Transformer 进行实时语义通信演示

该论文提出了一种基于端到端深度神经网络结构的图像传输方法，利用现场可编程门阵列（FPGA）在实时无线信道上实现了原型测试，结果表明该系统在使用流行的 CIFAR-10 数据集时，比传统 256 正交幅度调制系统在低信噪比情况下表现更好。本文是第一篇使用视觉变换器实现和研究实时语义通信的工作。

May, 2022

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

基于 Transformer 的文本语义通信的联合源信道编码

本文提出了一种文本语义传输框架，利用先进的自然语言处理技术对句子进行建模和编码，以实现鲁棒传输。该方法利用神经网络和注意机制在具有挑战性的无线环境中提供可靠高效的文本数据传输，通过对语义相似性和双语评估的模拟结果证明了该模型的优越性。

Jul, 2023

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

变形金刚中的变形金刚

本文提出了一种新的 Transformer 结构，即 Transformer iN Transformer（TNT），旨在提高图像处理中变换器的性能，通过在局部感知机制内利用可忽略计算成本的注意力机制以进一步将图像局部细化，从而在 ImageNet 基准测试中实现了 81.5% 的 Top-1 准确率，较相似计算成本的最先进的可视变换器高出 1.7%。

Feb, 2021

使用语义有意义的标记理解视觉表示学习的效果

在视觉 - 语言预训练框架中，通过提供语义上有意义的视觉标记给 transformer 编码器，本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制，并通过使用现成的分割和场景图模型，提取了实例分割掩码（称为有形标记）和关系动作（称为无形标记）的表示，从而在视觉 side 的 transformer 预训练中引入了这些新增的标记，并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明，在 COCO 数据集上，相比 ViTs，在文本到图像（+47%）和图像到文本（+44%）检索任务中学到了更好的表示质量，并且在组合性评估基准（如 ARO（+18%）和 Winoground（+10%））上展示了优势。

May, 2024