针对自监督语音模型的一次性序列压缩

Nov, 2022

针对自监督语音模型的一次性序列压缩

Once-for-All Sequence Compression for Self-Supervised Speech Models

Hsuan-Jui Chen, Yen Meng, Hung-yi Lee

TL;DR本研究提出了一种可以在多种下游任务中调节压缩率的模型压缩方法，该方法可以在保证语音模型性能的前提下，减小计算成本并且不需要通过网格搜索来确定不同任务的压缩率。

Abstract

The sequence length along the time axis is often the dominant factor of the computation in speech processing. Works have been proposed to reduce the sequence length for lowering the computational cost in self-supervised speech models. However, different downstream tasks have different

self-supervised speech models sequence compression computational cost task-specific frame selection efficiency trade-off

发现论文，激发创造

压缩变压器进行长序列建模

本研究介绍了压缩 Transformer，一种关注序列模型，用于长距离序列学习。在维基百科 103 和 Enwik8 基准测试中，我们发现压缩 Transformer 获得了最先进的语言模型结果，分别为 17.1 ppl 和 0.97 bpc。我们还发现它可以有效地模拟高频率语音，并且可以用作 RL 的记忆机制，在物体匹配任务上进行了演示。为了促进长距离序列学习领域，我们提出了一个新的基于图书的开放式词汇语言模型基准测试 PG-19。

Nov, 2019

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

OFA: 通过一个简单的序列到序列学习框架统一架构、任务和模态

本文提出一种支持任务综合性的任务不可知和模态不可知框架 OFA，用于统一多模态预训练。OFA 在仅使用 2000 万个公开可用的图像 - 文本对进行预训练情况下，在一系列交叉模态任务上实现了新的 SOTAs，并在单模态任务上取得了高竞争性能。同时，OFA 还可以有效地转移到看不见的任务和领域中。

Feb, 2022

SEQ^3: 可微分的序列到序列到序列自编码器用于无监督的抽象句子压缩

本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩，利用预训练语言模型作为潜变量的先验，结合连续的松弛机制使模型可优化，避免了对平行文本摘要对的依赖，实现了在基准数据集上取得了诱人的结果。

Apr, 2019

CompOFA: 多用一网络复合架构加速跨平台部署

该研究提出了一个名为 CompOFA 的设计空间，基于复合关系的模型维度来约束最优的模型配置，实现了在保证 Pareto 优化的情况下，相较于现有技术，减少了 2 倍的训练时间和 216 倍的模型搜索 / 提取时间。

Apr, 2021

使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化

我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法，使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统，而无需单独训练和存储个别目标系统。实验证明，与等复杂度的单独训练系统相比，一个全能模型中压缩的多个 ASR 系统的字错误率（WER）相当，或更低至 1.01％绝对值（6.98％相对值）。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上，最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍，没有引起统计上显著的 WER 增加。

Jun, 2024

一种内存高效 Transformer 的分组自注意机制

提出了两个新的模块，Grouped Self-Attention 和 Compressed Cross-Attention，可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度，并且可以捕捉局部的同时考虑全局信息，实验表明，预测时间序列数据时，我们提出的模型展示了降低计算复杂度的高效性，且性能可与现有方法相当甚至更好。

Oct, 2022

序列模型的离散自编码器

本文旨在通过强制使用自动编码器并引入改进的语义哈希技术，从序列模型中提取更好的表示，以提高其在语言建模和机器翻译等任务中的表现，并展示了该技术在生成多元化翻译方面的应用。

Jan, 2018

一种针对可变长度序列的固定大小编码方法及其在神经网络语言模型中的应用

本文提出了一种名为 FOFE 的新型定长序列编码方法，通过简单的遗忘机制，FOFE 模型可以很好地模拟变长序列中的单词顺序关系，并应用于前馈神经网络语言模型的训练中，证实 FOFE 所构建的模型不仅在使用有限的神经元数量时，优于标准输入的前馈神经网络语言模型，也能胜过流行的循环神经网络语言模型。

May, 2015

循环神经网络压缩及其在嵌入式语音识别 LVCSR 声学建模中的应用

本研究旨在实现恰当地压缩循环神经网络的目的，并提出了一种同时压缩循环和非循环层权重矩阵的通用压缩技术。通过这种方法，将 LSTM 声学模型减小到原来的三分之一，同时保持准确性可接受。

Mar, 2016