- 基于向量量化的对抗性防御
利用高维向量量化的随机离散化方法,提出了两种新的对抗性防御方法 pRD 和 swRD。这些方法不仅在保证证明准确性方面具有理论保证,而且通过大量实验结果表明,它们的性能相当,甚至优于当前艺术的对抗性防御。这些方法可以扩展到允许目标分类器进一 - CVPR朝向准确的图像编码:动态向量量化改进自回归图像生成
提出了一种新的两阶段框架,它使用动态量化 VAE 将图像区域编码为基于其信息密度的可变长度代码,以实现更准确,更紧凑的代码表示,从而解决了现有 VQ 基于自回归模型的固定长度编码问题,该方法通过一种新的堆叠 Transformer 架构和共 - 解决向量量化网络中优化挑战的直通估计器问题
本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战,通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试,包括 AlexNet,ResNet 和 ViT 以及图像分类和生成建模等领域。
- 面向音视频语音情感识别的向量量化掩码自编码器
本研究提出了一种基于矢量量化和自监督学习的 MAE 模型,对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案,实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后,表现优于现有的音 - 具有双向先验模型的矢量量化时间序列生成
提出了一种名为 TimeVQVAE 的新模型,它使用矢量量化技术解决时间序列生成(TSG)问题,通过在时频域中分离出低频和高频来保留时间序列的重要特征,并使用双向转换模型学习离散潜在空间的先验知识,使其具有更好的全局时间一致性和更好的质量。
- UnifySpeech: 零样本文本转语音和语音转换的统一框架
该论文提出了 UnifySpeech 模型,它首次将文字转语音(TTS)和语音转换(VC)结合到一个框架中,通过矢量量化和域限制技术,加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。
- MM矢量量化语义通信系统
本文提出了一种基于深度学习(DL)和向量量化(VQ)的语义通信系统 VQ-DeepSC,通过卷积神经网络(CNN)提取图像的多尺度语义特征并利用多尺度语义嵌入空间实现语义特征量化,从而使数据兼容数字通信系统,同时通过对抗训练引入 Patch - 使用解耦表示构建说话人匿名系统是否足够?
本研究通过使用向量量化技术,加强从声学模型中提取特征时的内容和说话人信息的分离,从而改进说话人匿名化技术,并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。
- 向量量化图像转换
本文提出一种使用矢量量化技术的图像转换框架,使得图像之间能够无条件地共享分布,结合解耦的样式表示,该方法不仅能实现图像翻译,而且具有在所有领域内和领域之间的高度灵活性,在图像转换、无条件生成和图像扩展的应用中具有广泛的实用性。
- ECCV使用矢量量化字典和并行解码器进行盲人面部修复
提出了基于向量量化和纹理变形的 VQFR 方法,该方法利用高质量的低层特征和并行解码器以及自适应压缩字典来恢复面部细节,提高了面部细节的修复质量。
- SIGIRDistill-VQ:通过密集嵌入提取知识进行检索导向量化
该论文提出了一种基于知识蒸馏框架的 Distill-VQ 算法,通过将密集的嵌入作为 “教师” 来预测查询与样本文档的相关性,并将 VQ 模块作为 “学生” 学习以复现预测的相关性,得出的检索结果可以完全保留密集嵌入的检索结果,从而使未标记 - 使用向量量化进行保护隐私的语音表示学习
本文提出了一种匿名表示方案,使用矢量量化来限制表示空间并通过禁止说话人身份信息实现对隐私的保护,从而在保留语音识别的基础上实现说话人匿名化。
- CVPR使用残差量化的自回归图像生成
本文提出了一种两阶段的框架,由残差量化 VAE(RQ-VAE)和 RQ-Transformer 组成,旨在有效地生成高分辨率图像,通过精确的逼近,我们可以将 256×256 像素的图像表示为 8×8 特征映射,并且 RQ-Transform - 从语言中学习可解释技能抽象的 LISA
本文提出了一种可以从语言相关演示中学习多样、可解释的原始行为或技能的分层模仿学习框架 (LISA),采用向量量化方法来学习与语言指令高度相关的离散化技能编码,并在导航和机器人操作环境中实现了对未见过指令的方案的任务解决能力的提高,从而在序列 - ICLRRetriever: 学习内容和风格表示作为一种基于令牌级二分图的方法
本文介绍了使用一种名为 Retriever 的无监督框架学习内容和样式分解表示的方法,其中使用交叉注意模块和矢量量化模块以及基于链接的注意模块来构建这种表示,并应用于语音和图像领域中,展示了 Retriever 在零样本语音转换、图片部分发 - 具有动态向量量化的自适应离散通信瓶颈
本研究提出了一种基于动态选择离散化紧密度的方法,通过调整 VQ 方法中的码本大小和离散码数来实现,以应对数据中的复杂性差异,这种方法可在视觉推理和强化学习任务中提高模型性能。
- VQ-GNN:一种使用矢量量化扩大图神经网络的通用框架
文章提出了一种新的基于向量量化技术的通用框架 VQ-GNN,为了解决图神经网络中的邻居爆炸问题和扩展性问题,该方法可以有效地保留所有传递给 mini-batch 的节点的信息,同时使用小量的量化参考向量和低秩图卷积矩阵进行图嵌入,同时该框架 - EMNLP短语检索也学会了段落检索
通过研究密集短语检索系统,探讨短语检索是否可以作为粗粒度检索(如段落和文档)的基础,并提出了短语过滤和矢量量化等方法,可以将检索索引的大小减小至原来的 4-10 倍,从而使得密集短语检索成为多粒度检索的实用解决方案。
- VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法,用于一次成音转换
本文提出通过使用向量量化 (VQ) 进行内容编码,并在训练期间引入互信息 (MI) 作为相关度度量,从而在无监督的情况下实现内容、说话人和音高表示的适当分离,以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时,捕捉目标说话 - 跨模态离散表示学习
本文提出了一种自监督学习框架,借助向量量化创建的离散嵌入空间,实现了跨不同视图(模态)之间的表征学习和匹配,从而提升了模态检索任务的性能。实验表明,所提出的多模态精细离散化表征能够为高层次摘要表征提供补充,有效改善了跨模态检索的表现。