高效样本特定编码器扰动

ACLMay, 2024

Efficient Sample-Specific Encoder Perturbations

Yassir Fathullah, Mark J. F. Gales

TL;DR通过对 encoder-decoder 系统的行为进行修改，本研究提出了一个简单且轻量级的方法来控制特定属性的行为。在改进了 COMET 在机器翻译和 Whisper 基础模型在语音识别中的性能的基础上，实验结果显示了持续不断的改进。

Abstract

encoder-decoder foundation models have displayed state-of-the-art performance on a range of autoregressive sequence tasks. This paper proposes a simple and lightweight →

encoder-decoder modification attribute inference-efficient performance

发现论文，激发创造

重新考虑编码器 - 解码器中的扰动以实现快速训练

研究比较序列到序列问题中常用的扰动方法，包括定期抽样、对抗性扰动、词随机替换等，结果表明速度更快的简单技术如词元删除、输入符号的随机替换等与新提出的扰动方法具有可比性或者更好的性能。

Apr, 2021

语言理解用的可调节延迟的 Transformer 编码器

本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Jan, 2022

ED2LM: 用于更快文档重新排序推理的 Encoder-Decoder 到语言模型

提出使用预训练的 encoder-decoder 模型，通过 document to query generation 来进行重新排名，同时在推理时，将其分解为仅有 decoder 的语言模型以提高推理速度，实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍，并且能取得相当的效果。

Apr, 2022

具有局部约束的源目标自注意力

本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

May, 2019

注意力还是卷积：用于推理效率的音频语言模型中的 Transformer 编码器

通过本文研究发现，使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率，同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现，同时使用较低位权重量化技术的神经网络的简单方法，能够提高效率并防止在量化模块之间传播误差。

Nov, 2023

不要冻结：微调编码器以获得更好的自监督 HAR

本文探讨了自监督学习在人类活动识别领域解决标记数据不足的问题，通过学习预测任务，可以得到有用的表示用于分类，并发现不冻结表示可以在预测任务中实现显著性能提升并且效果与标记数据量成反比。

Jul, 2023

分层注意力编码器解码器

本文提出了一种基于分层循环编码器解码器结构的模型，通过采样 softmax 估计开发了一种训练算法，可以在不需要高频解码器的情况下训练整个模型，显著降低了自回归模型训练的存储需求并改进了总的训练时间。

Jun, 2023

用于自监督编码器 - 解码器语音模型的提示和适配器调整

通过在 Wav2Seq 模型上进行提示和适配器调优，我们在序列生成任务中取得了显著的成果，尤其在 ASR 的词错误率和槽位填充的 F1 分数上相对于往前的工作分别提高了 53% 和 27%。在 7 种语言中，当可训练参数有限时，提示和适配器调优表现优于传统的微调方法，尤其在资源匮乏的情况下，提示的表现更好。

Oct, 2023

语音增强中高效编码器 - 解码器和双通道 Conformer 的综合特征学习

该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络（DPCFCS-Net）, 在 VCTK+DEMAND 数据集上表现优于现有技术，其改进的密集连接块和二维注意力模块易于集成到现有网络中，具有更高的适应性。

Jun, 2023

高效压缩子层的 Transformer 解码器

通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块，提出了 Compressed Attention Network，实现了更高的并行性，性能与强基线相当，速度加快 1.42 倍。

Jan, 2021