用于低资源设备的端到端非自回归图像到语音系统压缩

MMNov, 2023

用于低资源设备的端到端非自回归图像到语音系统压缩

Compression of end-to-end non-autoregressive image-to-speech system for low-resourced devices

Gokul Srinivasagan, Michael Deisher, Munir Georges

TL;DR本文提出了一种基于视觉转换器的图像编码器和知识蒸馏技术来压缩模型参数，并通过在低资源设备上从微小的显示内容片段生成音频的高效端到端神经网络结构，实现了可用于减轻视觉障碍的图像转语音系统的部署。人工和自动评估结果表明，我们的方法在性能方面几乎没有下降，并且可以加快推理时间 22%。

Abstract

People with visual impairments have difficulty accessing touchscreen-enabled personal computing devices like mobile phones and laptops. The image-to-speech (ITS) systems can assist them in mitigating this problem, but their huge model size makes it extremely hard to be deployed on low-

visual impairments image-to-speech systems low-resource devices neural architecture knowledge distillation

发现论文，激发创造

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

压缩视觉 Transformer 用于低资源视觉学习

通过使用模型压缩技术，本研究旨在实现对视觉转换器在资源受限设备上的快速推理，以在边缘环境中将其部署在无人机上，并以最小的准确性损失，以便在监视、环境监测等领域开辟新的可能性。

Sep, 2023

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验，并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

通过缩放实现更好的语音合成

本文介绍了一种将图像生成领域的进展应用到语音合成的方法，旨在创造出一种具有表现力和多音色的文本朗读系统 TorToise。

May, 2023

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

面向任务的扩散模型压缩

通过减小模型大小和减少时间步长，我们探索了基于任务的方式压缩 I2I 模型，并将其应用于图像编辑和图像修复任务，取得了满意的输出质量以及模型大小和延迟的显著减少。

Jan, 2024

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成

本文提出了一种强大而高效的图像到语音字幕（Im2Sp）模型构建方法，引入了大规模预训练的视觉 - 语言模型相关知识，并将其输出设置为离散化的语音单元，即自我监督语音模型的量化语音特征，以实现将预训练的视觉 - 语言模型的语言建模能力融入到 Im2Sp 的口语化建模中，从而在广泛使用的基准数据库 COCO 和 Flickr8k 上取得了新的最先进的 Im2Sp 性能，并进一步提高了 Im2Sp 模型的效率。

Sep, 2023