高效样本特定编码器扰动
研究比较序列到序列问题中常用的扰动方法,包括定期抽样、对抗性扰动、词随机替换等,结果表明速度更快的简单技术如词元删除、输入符号的随机替换等与新提出的扰动方法具有可比性或者更好的性能。
Apr, 2021
本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构,包括 Attention Context Contribution(ACC)度量和新的策略,可用于 BERTbase 模型的微调,并且使得推论延迟提高了 4.8 倍,并且精度下降少于 0.75%。
Jan, 2022
提出使用预训练的 encoder-decoder 模型,通过 document to query generation 来进行重新排名,同时在推理时,将其分解为仅有 decoder 的语言模型以提高推理速度,实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍,并且能取得相当的效果。
Apr, 2022
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
通过本文研究发现,使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率,同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现,同时使用较低位权重量化技术的神经网络的简单方法,能够提高效率并防止在量化模块之间传播误差。
Nov, 2023
本文探讨了自监督学习在人类活动识别领域解决标记数据不足的问题,通过学习预测任务,可以得到有用的表示用于分类,并发现不冻结表示可以在预测任务中实现显著性能提升并且效果与标记数据量成反比。
Jul, 2023
本文提出了一种基于分层循环编码器解码器结构的模型,通过采样 softmax 估计开发了一种训练算法,可以在不需要高频解码器的情况下训练整个模型,显著降低了自回归模型训练的存储需求并改进了总的训练时间。
Jun, 2023
通过在 Wav2Seq 模型上进行提示和适配器调优,我们在序列生成任务中取得了显著的成果,尤其在 ASR 的词错误率和槽位填充的 F1 分数上相对于往前的工作分别提高了 53% 和 27%。在 7 种语言中,当可训练参数有限时,提示和适配器调优表现优于传统的微调方法,尤其在资源匮乏的情况下,提示的表现更好。
Oct, 2023
该论文提出了一种基于改进密集连接块、双路径模块、卷积增强变形器、通道注意力和空间注意力的时间频域语音增强网络(DPCFCS-Net), 在 VCTK+DEMAND 数据集上表现优于现有技术,其改进的密集连接块和二维注意力模块易于集成到现有网络中,具有更高的适应性。
Jun, 2023
通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块,提出了 Compressed Attention Network,实现了更高的并行性,性能与强基线相当,速度加快 1.42 倍。
Jan, 2021