BriefGPT.xyz
大模型
Ask
alpha
关键词
target speech extraction
搜索结果 - 4
IJCAI
音频 - 视觉交叉模态条件语音提取中的分离
AVSepChain 是一种多模态学习方法,通过将音频 - 视觉目标语音提取任务分为两个阶段(语音感知和语音产生),改善了模态不平衡的问题,并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致,实验结果表
→
PDF
2 months ago
AAAI
自监督解缠结表示学习用于稳健目标语音提取
通过自监督解缠的表示学习方法,该论文提出了一种两阶段的方法,利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系,从而有效地引导语音提取网络并降低说话者混淆的可能性。此外,引入自适应调制 Transformer
→
PDF
7 months ago
扩散条件期望模型用于高效稳健的目标语音提取
我们提出了一种名为 Diffusion Conditional Expectation Model(DCEM)的高效生成方法,用于目标语音提取(TSE),它可以处理多个和单个说话者的情况,包括噪声和干净条件,并且我们还引入了 Regener
→
PDF
9 months ago
利用时域 SpeakerBeam 改善目标语音提取的说话人识别能力
本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取,对同性别混合语音的语音分离效果不如期望,但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。
PDF
4 years ago
Prev
Next