零样本盲音频带宽扩展

Jun, 2023

Zero-Shot Blind Audio Bandwidth Extension

Eloi Moliner, Filip Elvander, Vesa Välimäki

TL;DR该论文介绍了一种新方法 BABE（Blind Audio Bandwidth Extension），它利用预训练无条件扩散模型的生成先验处理盲音频带宽扩展中未知的低通损伤，其性能通过客观和主观指标的评估表明，BABE 在测试合成数据时优于最先进的盲宽带扩展基线，并在与非盲过滤知方法进行比较时实现了有竞争力的性能；此外，在增强真实历史记录时 BABE 表现出鲁棒的泛化能力，有效地重构了丢失的高频内容，同时保持了与原始记录的一致性

Abstract

audio bandwidth extension involves the realistic reconstruction of high-frequency spectra from bandlimited observations. In cases where the lowpass degradation is unknown, such as in restoring historical audio recordings, this becomes a →

audio bandwidth extension blind problem generative priors diffusion model historical audio recordings

发现论文，激发创造

实时语音频带扩展

本文提出了一种轻量级模型，可以将采样频率从 8kHz 提高到 16kHz，并使用 SEANet 模型结构和特征损失和对抗损失的组合方法，将高频内容恢复到与 16kHz 接近的水平，并且该模型在流模式下具有较低的延迟，可在双向语音通信系统中实现。

Oct, 2020

BUDDy: 单通道盲无监督除混响实现弥散模型

该论文提出了一种基于扩散模型的无监督单声道方法，用于联合盲去混响和房间脉冲响应估计。在各个频率子带上使用带指数衰减的滤波器对混响运算符进行参数化，并沿反向扩散轨迹迭代估计相应的参数。通过测量一致性准则强化生成语音与混响测量的真实性，同时无条件的扩散模型实现了对清晰语音生成的强先验。在没有任何关于房间脉冲响应或混响 - 无混响耦合数据的信息下，我们能够在各种声学场景中成功地进行去混响。我们的方法明显优于先前的盲无监督基准线，并且我们展示了相对于盲监督方法对未见声学条件更具鲁棒性。在线上可获取音频样本和代码。

May, 2024

AB/BA 分析：在保持音频隐私的同时估计关键词检测召回率提高的框架

本研究提出了一种名为 AB/BA 分析的技术，该技术可在隐私约束下，无需负样本即可使用交叉数据集进行相对召回率估计，以及在机器生成的软标签的帮助下进行半监督分析。通过实验，研究表明 AB/BA 分析可成功衡量召回率的改进和相对假阳性率的平衡。

Apr, 2022

离线专家演示的实时带宽估计

我们提出了 Merlin，这是一种用于带宽估计的纯离线数据驱动解决方案，通过将启发式方法与深度学习技术相结合，克服了泛化到未见网络动态和从先前经验中提取丰富表示的挑战，在实时系统中集成数据驱动的带宽估计器。通过一系列实验，我们证明了 Merlin 在客观体验质量指标方面超过了最先进的启发式和深度学习带宽估计器，在野外网络部署中，与 WebRTC 在洲际视频会议呼叫中相比，Merlin 在丢包率和延迟方面分别实现了 42.85% 和 12.8% 的降低。我们希望 Merlin 的离线设计能促进实时网络控制的新策略。

Sep, 2023

FS-BAND：一种频率敏感的带检测器

该论文研究了频率方面的条纹伪影，并提出了一种无参考条纹检测模型，名为频率敏感的 BANding 检测器（FS-BAND）。实验结果表明，该方法在条纹分类任务中具有更高的准确性，优于现有的图像质量评估方法。

Nov, 2023

BAMBI: 盲加速多模贝叶斯推断

本文介绍了一种快速贝叶斯分析算法，结合了嵌套抽样和人工神经网络的优点，能够显着提高似然函数的快速逼近，进而减少时间和计算量，可用于计算昂贵的似然函数的其他问题。

Oct, 2011

深度音频先验

本论文提出一种新的深度学习结构 —— 深度音频先验，该方法可在缺乏训练数据的情况下，通过结构和时间信息解决通用盲源分离、交互式音频编辑、音频纹理合成和音频共分离等具有挑战性的音频问题，同时作者通过构建大量数据集且进行严格的实验验证了此方法的有效性。

Dec, 2019

有效梯度逼近下的视觉 - 语言模型的黑盒调优

通过合作式黑盒调整，本研究介绍一种参数高效微调方法，用于对视觉语言模型进行特定任务或场景的适应。使用文本提示优化和输出特征调整来处理闭源模型的访问障碍，并在十一个下游基准测试中得到显著改进。

Dec, 2023

实时全频段语音增强的混合 DSP / 深度学习方法

本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Sep, 2017

自适应频率自监督单目深度估计

提出了两种通用方法来增强自监督单目深度估计模型的普适性，分别是模糊边界和自适应高斯滤波器。实验证明这两个模块能为现有模型带来性能提升而不增加额外计算量。

Oct, 2022