语义边缘自动编码器中的非降波尔变换在安全改进和消噪不同语言中的应用
本文提出了简单而有效的方法,通过使用单语语料库而无需任何回译来改善跨语言嵌入的逐字翻译,并结合语言模型和噪声自编码器来提高其翻译性能,分析了词汇量和去噪类型对翻译效果的影响。
Jan, 2019
本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
提出了 Wavelet-like 自编码器用于基于图像分解的深度神经网络加速,并结合一个标准分类网络,该框架不仅能够保持图像的主要组成部分,也可应用于任意卷积神经网络的分类,具有解释性。
Dec, 2017
提出了一种高效的小波变换器 (Efficient Wavelet Transformer,EWT) 方法,使用离散小波变换 (DWT) 和反小波变换 (IWT) 降采样和升采样以实现图像降噪。同时,还提出了一种新颖的双流特征提取块 (DFEB) 来在不同的级别提取图像特征,缩短模型推断时间和 GPU 存储器使用量。实验证明,该方法提高了原始 Transformer 的速度超过 80%,减少了 GPU 存储器使用量超过 60%,并取得了良好的去噪结果。
Apr, 2023
本文提出了一种基于编码器 - 解码器一一对应自编码器 (EncDec-CAE) 的无监督学习方法,用于从可变长度的语音以及无标签的语音数据中提取出与固定维度表示形式相对应的词嵌入,从而在无资源语音搜索、发现和索引系统中发挥重要作用,并在词辨别任务中相对于最接近的竞争对手提高了 24% 的平均精度。
Nov, 2018
基于边缘保持稠密自编码器网络的多模态医学图像的端到端无监督融合模型,通过波尔特分解的特征图注意力池化改进了特征提取过程,提高了源图像中精细边缘细节信息的保留和融合图像的视觉感知。通过在多种医学图像对上训练,有效地捕捉源图像的强度分布和保留诊断信息。实验结果表明,与其他最先进的融合方法相比,所提出的方法提供了改进的视觉和定量结果。
Oct, 2023
本文提出了一种基于多层小波包变换的生成对抗网络(MW-GAN)方法,旨在增强压缩视频的感知质量,其中运动补偿与小波重构网络被用于恢复高频细节,实验结果表明了该方法的优越性。
Aug, 2020
本文研究了声学词嵌入,探索了语义学声学词嵌入,并提出了一种基于多语种转移的语义学声学词嵌入方法,能够显著提高词汇相似性任务的表现,并且能够用于语义检索。
Jul, 2023
该研究针对缺乏已标注数据的零资源语言开发语音应用的挑战,特别使用声学词嵌入(AWE),通过多语言转移利用来自几种资源丰富的语言的已标注数据。该研究介绍了一种新的神经网络,优于现有的 AWE 模型在零资源语言上的表现,研究还探讨了资源丰富语言的选择对结果的影响。AWE 应用于斯瓦希里语广播中的仇恨言论检测的关键词识别系统,展示了在实际场景中的稳健性。此外,新颖的语义 AWE 模型提高了语义查询示例搜索的性能。
Jan, 2024
改进了现有语音识别中常用的特征提取方法,采用小波散射变换(WST)为低资源语音识别系统提供精确信息,通过优化 WST 特征和使用不同的 WST 超参数开发 ECAPA-TDNN 基于 LID 系统,大大改善了对未知数据的泛化能力。
Oct, 2023