LIP: 有意义的文本到语音轻量级智能预处理器

MMJul, 2022

LIP: 有意义的文本到语音轻量级智能预处理器

LIP: Lightweight Intelligent Preprocessor for meaningful text-to-speech

Harshvardhan Anand, Nansi Begam, Richa Verma, Sourav Ghosh, Harichandana B.S.S...

TL;DR本文介绍了一种轻量级的智能预处理器 LIP，旨在解决现有 TTS 系统无法识别标点符号和表情符号等消息中的信息，提出多个子模块，包括展开缩写、审查脏话、掩盖 PII 等，以提高文本的可读性。通过一项独立的调查，结果表明，相比标准 TTS，启用了 LIP 的 TTS 引擎的偏好度为 76.5%。

Abstract

Existing Text-to-Speech (TTS) systems need to read messages from the email which may have Personal Identifiable Information (PII) to text messages that can have a streak of emojis and punctuation. 92% of the world's online population use emoji with more than 10 billion →

text-to-speech systems intelligent preprocessor pii masking emojis real-time deployment

发现论文，激发创造

FlexLip：一种可控的文本转唇型系统

本文中，我们提出了一个名为 FlexLip 的模块化、可控的文本生成唇形的系统，该系统分为两个模块：文本转语音和语音转唇形，并对其进行了深入的评估和测试，尤其是在新讲话者的快速适应方面进行了探究。

Jun, 2022

LipLearner: 移动设备上定制化的无声语音交互

本文通过对比学习来学习有效的唇读表示，实现了高效的口型识别，让用户能够自定义命令，并在手机上使用，同时还能提供高可用性和易学习性的定制静默语音交互功能。

Feb, 2023

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

一个新一代的 Perspective API: 高效多语种基于字符级别的 Transformer

本文介绍了 Google Jigsaw 的 Next-Gen Perspective API，它基于单个多语言无标记 Charformer 模型，可以应用于各种语言、领域和任务，展示了在多语言有毒评论分类基准测试中的广泛实验和评估结果，证明了该方法优于强基线，最后还介绍了如何部署到生产环境。

Feb, 2022

即插即用的多语种小样本语音识别

PLiX 是一种多语言、即插即用的语音关键字检测系统，它利用少量样本学习海量真实世界数据，实现在测试期间识别未见过的口头单词。

May, 2023

表情符号解码：利用 ChatGPT 增强社交媒体交流的理解能力

ChatGPT 评估了其在已注释和后续任务处理方面的有效性，以验证 ChatGPT 能否在表情符号研究中作为可行的替代品，并且其解释表情符号含义的能力能增加在线沟通的清晰度和透明度。研究结果表明，ChatGPT 对表情符号有广泛的知识，并能够在不同应用场景中阐明其含义，具备取代人类注释者进行多种任务的潜力。

Jan, 2024

用于低资源设备的端到端非自回归图像到语音系统压缩

本文提出了一种基于视觉转换器的图像编码器和知识蒸馏技术来压缩模型参数，并通过在低资源设备上从微小的显示内容片段生成音频的高效端到端神经网络结构，实现了可用于减轻视觉障碍的图像转语音系统的部署。人工和自动评估结果表明，我们的方法在性能方面几乎没有下降，并且可以加快推理时间 22%。

Nov, 2023

PromptCrypt: 大规模语言模型的安全通信中初始加密

这篇论文介绍了一种名为 PromptCrypt 的加密机制，它使用表情符号对用户输入进行加密，保护用户隐私，无论对人类还是 LLM 自身都无法辨别敏感数据，同时保持模型的性能，实现与直接提示 LLM 相比，任务准确性可比甚至更优，突出了保护用户隐私而不损害 LLMs 的功能完整性和性能的加密措施的实用性。

Feb, 2024

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

LiteG2P: 一种快速轻量级高精度的字素到音素转换模型

本文提出了一种名为 LiteG2P 的新颖方法，它将专家知识和神经网络相结合，可快速、轻量且理论上并行化，能用于云端和设备端。实验结果显示，该方法在参数数量上比基于 CTC 的现有方法少 10 倍，在计算量上比基于 Transformers 的序列到序列模型少 33 倍，在性能方面显着优于目前的基于 CTC 的方法，可用于自然语言处理中字母转语音的应用场景。

Mar, 2023