unseen speakers | BriefGPT - AI 论文速递

关键词unseen speakers

搜索结果 - 4

面向说话者自适应视觉语音识别的深度神经网络提示调整
本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法，通过针对目标演讲者的适应数据进行提示微调，显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能
PDFa year ago
多说话人神经语音合成的多任务对抗训练算法
本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。
PDF2 years ago
ECCV具有用户相关填充的说话人自适应唇读
本文提出了一种音频读唇的说话人自适应方法，该方法针对模型训练与测试时说话人不匹配的情况，使用特定的输入（称为用户相关填充）参与预先训练的模型的视觉特征提取阶段，以进行适应性的个人化的视觉特征编码。
PDF2 years ago
FaceFilter: 通过静态图像进行音视频语音分离
使用深度学习中的音频 - 视觉语音分离网络，从混音状态中分离出指定说话者的语音，且仅使用目标说话者的单一面部图像，通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征，可隔离和提取这些说话者的语音，为语音分离任务中的通道交换问题提供解
PDF4 years ago