MMNov, 2023

用于低资源设备的端到端非自回归图像到语音系统压缩

TL;DR本文提出了一种基于视觉转换器的图像编码器和知识蒸馏技术来压缩模型参数,并通过在低资源设备上从微小的显示内容片段生成音频的高效端到端神经网络结构,实现了可用于减轻视觉障碍的图像转语音系统的部署。人工和自动评估结果表明,我们的方法在性能方面几乎没有下降,并且可以加快推理时间 22%。