audio-visual speech enhancement | BriefGPT

关键词audio-visual speech enhancement

搜索结果 - 5

协同双重注意力的音视频语音增强与面部线索
通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。
PDF7 months ago
MM基于评分的生成模型的音视频语音增强
本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明
PDFa year ago
音视频语音编解码器：重新思考音视频语音增强通过再合成的方法
本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。
PDF2 years ago
轻量级音视话语增强
本研究提出了一种 “轻量级视听语音增强” 系统（LAVSE），该系统通过采用两种视觉数据压缩技术和去除训练模型中的人脸或唇部图像的特征提取网络，以达到更好的在线计算效率和更好的性能，从而在保障隐私的前提下，实现了比仅使用音频的增强系统更出色
PDF4 years ago
深度学习音 - 视觉语音增强的训练目标和目标函数
研究采用深度学习技术解决音视频语音增强任务时，目标量和目标函数的选择对性能至关重要；本实验研究了一系列不同的目标量和目标函数，结果表明直接估计掩模的方法在估计语音质量和可懂度方面表现最佳。
PDF6 years ago