针对自监督语音模型的一次性序列压缩
本研究介绍了压缩 Transformer,一种关注序列模型,用于长距离序列学习。在维基百科 103 和 Enwik8 基准测试中,我们发现压缩 Transformer 获得了最先进的语言模型结果,分别为 17.1 ppl 和 0.97 bpc。我们还发现它可以有效地模拟高频率语音,并且可以用作 RL 的记忆机制,在物体匹配任务上进行了演示。为了促进长距离序列学习领域,我们提出了一个新的基于图书的开放式词汇语言模型基准测试 PG-19。
Nov, 2019
本文旨在探讨通过多种压缩技术(如剪枝和知识蒸馏)来减小基于 Transformer 的自监督模型的计算复杂度, 以适应不同设备的应用场景,并通过比较参数数量、操作数和时间等指标,综合分析这些技术的优劣。
Nov, 2022
本文提出一种支持任务综合性的任务不可知和模态不可知框架 OFA,用于统一多模态预训练。OFA 在仅使用 2000 万个公开可用的图像 - 文本对进行预训练情况下,在一系列交叉模态任务上实现了新的 SOTAs,并在单模态任务上取得了高竞争性能。同时,OFA 还可以有效地转移到看不见的任务和领域中。
Feb, 2022
本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩,利用预训练语言模型作为潜变量的先验,结合连续的松弛机制使模型可优化,避免了对平行文本摘要对的依赖,实现了在基准数据集上取得了诱人的结果。
Apr, 2019
该研究提出了一个名为 CompOFA 的设计空间,基于复合关系的模型维度来约束最优的模型配置,实现了在保证 Pareto 优化的情况下,相较于现有技术,减少了 2 倍的训练时间和 216 倍的模型搜索 / 提取时间。
Apr, 2021
我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比,一个全能模型中压缩的多个 ASR 系统的字错误率(WER)相当,或更低至 1.01%绝对值(6.98%相对值)。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上,最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍,没有引起统计上显著的 WER 增加。
Jun, 2024
提出了两个新的模块,Grouped Self-Attention 和 Compressed Cross-Attention,可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度,并且可以捕捉局部的同时考虑全局信息,实验表明,预测时间序列数据时,我们提出的模型展示了降低计算复杂度的高效性,且性能可与现有方法相当甚至更好。
Oct, 2022
本文旨在通过强制使用自动编码器并引入改进的语义哈希技术,从序列模型中提取更好的表示,以提高其在语言建模和机器翻译等任务中的表现,并展示了该技术在生成多元化翻译方面的应用。
Jan, 2018
本文提出了一种名为 FOFE 的新型定长序列编码方法,通过简单的遗忘机制,FOFE 模型可以很好地模拟变长序列中的单词顺序关系,并应用于前馈神经网络语言模型的训练中,证实 FOFE 所构建的模型不仅在使用有限的神经元数量时,优于标准输入的前馈神经网络语言模型,也能胜过流行的循环神经网络语言模型。
May, 2015
本研究旨在实现恰当地压缩循环神经网络的目的,并提出了一种同时压缩循环和非循环层权重矩阵的通用压缩技术。通过这种方法,将 LSTM 声学模型减小到原来的三分之一,同时保持准确性可接受。
Mar, 2016