零样本盲音频带宽扩展
本文提出了一种轻量级模型,可以将采样频率从 8kHz 提高到 16kHz,并使用 SEANet 模型结构和特征损失和对抗损失的组合方法,将高频内容恢复到与 16kHz 接近的水平,并且该模型在流模式下具有较低的延迟,可在双向语音通信系统中实现。
Oct, 2020
该论文提出了一种基于扩散模型的无监督单声道方法,用于联合盲去混响和房间脉冲响应估计。在各个频率子带上使用带指数衰减的滤波器对混响运算符进行参数化,并沿反向扩散轨迹迭代估计相应的参数。通过测量一致性准则强化生成语音与混响测量的真实性,同时无条件的扩散模型实现了对清晰语音生成的强先验。在没有任何关于房间脉冲响应或混响 - 无混响耦合数据的信息下,我们能够在各种声学场景中成功地进行去混响。我们的方法明显优于先前的盲无监督基准线,并且我们展示了相对于盲监督方法对未见声学条件更具鲁棒性。在线上可获取音频样本和代码。
May, 2024
本研究提出了一种名为 AB/BA 分析的技术,该技术可在隐私约束下,无需负样本即可使用交叉数据集进行相对召回率估计,以及在机器生成的软标签的帮助下进行半监督分析。通过实验,研究表明 AB/BA 分析可成功衡量召回率的改进和相对假阳性率的平衡。
Apr, 2022
我们提出了 Merlin,这是一种用于带宽估计的纯离线数据驱动解决方案,通过将启发式方法与深度学习技术相结合,克服了泛化到未见网络动态和从先前经验中提取丰富表示的挑战,在实时系统中集成数据驱动的带宽估计器。通过一系列实验,我们证明了 Merlin 在客观体验质量指标方面超过了最先进的启发式和深度学习带宽估计器,在野外网络部署中,与 WebRTC 在洲际视频会议呼叫中相比,Merlin 在丢包率和延迟方面分别实现了 42.85% 和 12.8% 的降低。我们希望 Merlin 的离线设计能促进实时网络控制的新策略。
Sep, 2023
该论文研究了频率方面的条纹伪影,并提出了一种无参考条纹检测模型,名为频率敏感的 BANding 检测器(FS-BAND)。实验结果表明,该方法在条纹分类任务中具有更高的准确性,优于现有的图像质量评估方法。
Nov, 2023
本文介绍了一种快速贝叶斯分析算法,结合了嵌套抽样和人工神经网络的优点,能够显着提高似然函数的快速逼近,进而减少时间和计算量,可用于计算昂贵的似然函数的其他问题。
Oct, 2011
本论文提出一种新的深度学习结构 —— 深度音频先验,该方法可在缺乏训练数据的情况下,通过结构和时间信息解决通用盲源分离、交互式音频编辑、音频纹理合成和音频共分离等具有挑战性的音频问题,同时作者通过构建大量数据集且进行严格的实验验证了此方法的有效性。
Dec, 2019
通过合作式黑盒调整,本研究介绍一种参数高效微调方法,用于对视觉语言模型进行特定任务或场景的适应。使用文本提示优化和输出特征调整来处理闭源模型的访问障碍,并在十一个下游基准测试中得到显著改进。
Dec, 2023
本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制,该方法使用了四层隐含层的深度神经网络来估计关键频带增益,并采用传统的基音滤波器抑制谐波之间的噪声,相比于传统的最小均方误差谱估计,该方法获得了显著更高的质量,在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。
Sep, 2017