LIP: 有意义的文本到语音轻量级智能预处理器
本文中,我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统,该系统分为两个模块:文本转语音和语音转唇形,并对其进行了深入的评估和测试,尤其是在新讲话者的快速适应方面进行了探究。
Jun, 2022
本文通过对比学习来学习有效的唇读表示,实现了高效的口型识别,让用户能够自定义命令,并在手机上使用,同时还能提供高可用性和易学习性的定制静默语音交互功能。
Feb, 2023
本研究提出了一种轻量级的适应性神经 TTS 系统,采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器,性能接近自然语音合成,同时在标准 CPU 上实时性能比真实速度快 3 倍,系统的模块化设置使得可适应新的语音,只需要少量的数据,在大量实验中展示了系统的高质量和适应性,提高了 0.12 的质量差距和 3% 的相似性差距,可适应未见的声音和性别的合成。
May, 2019
本文介绍了 Google Jigsaw 的 Next-Gen Perspective API,它基于单个多语言无标记 Charformer 模型,可以应用于各种语言、领域和任务,展示了在多语言有毒评论分类基准测试中的广泛实验和评估结果,证明了该方法优于强基线,最后还介绍了如何部署到生产环境。
Feb, 2022
ChatGPT 评估了其在已注释和后续任务处理方面的有效性,以验证 ChatGPT 能否在表情符号研究中作为可行的替代品,并且其解释表情符号含义的能力能增加在线沟通的清晰度和透明度。研究结果表明,ChatGPT 对表情符号有广泛的知识,并能够在不同应用场景中阐明其含义,具备取代人类注释者进行多种任务的潜力。
Jan, 2024
本文提出了一种基于视觉转换器的图像编码器和知识蒸馏技术来压缩模型参数,并通过在低资源设备上从微小的显示内容片段生成音频的高效端到端神经网络结构,实现了可用于减轻视觉障碍的图像转语音系统的部署。人工和自动评估结果表明,我们的方法在性能方面几乎没有下降,并且可以加快推理时间 22%。
Nov, 2023
这篇论文介绍了一种名为 PromptCrypt 的加密机制,它使用表情符号对用户输入进行加密,保护用户隐私,无论对人类还是 LLM 自身都无法辨别敏感数据,同时保持模型的性能,实现与直接提示 LLM 相比,任务准确性可比甚至更优,突出了保护用户隐私而不损害 LLMs 的功能完整性和性能的加密措施的实用性。
Feb, 2024
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。
Oct, 2022
本文提出了一种名为 LiteG2P 的新颖方法,它将专家知识和神经网络相结合,可快速、轻量且理论上并行化,能用于云端和设备端。实验结果显示,该方法在参数数量上比基于 CTC 的现有方法少 10 倍,在计算量上比基于 Transformers 的序列到序列模型少 33 倍,在性能方面显着优于目前的基于 CTC 的方法,可用于自然语言处理中字母转语音的应用场景。
Mar, 2023