基于三元组嵌入距离和相似度学习的音频无关语音说话人验证

MMAug, 2019

基于三元组嵌入距离和相似度学习的音频无关语音说话人验证

Triplet Based Embedding Distance and Similarity Learning for Text-independent Speaker Verification

Zongze Ren, Zhiyong Chen, Shugong Xu

TL;DR本文介绍了两种在培训阶段优化说话人嵌入的方法：使用三元组损失来优化嵌入之间的欧几里德距离并减少多类交叉熵损失，以及设计一种嵌入相似度测量网络来控制选定嵌入之间的相似度。将两个新方法与原始网络联合培训，实现了最先进的结果，对 2016 年 NIST 说话人识别评估测试集的等误差率（EER）和检测成本函数（DCF）分别降低了 9％。

Abstract

speaker embeddings become growing popular in the text-independent speaker verification task. In this paper, we propose two improvements during the training stage. The improvements are both based on triplet cause the training stage and the evaluation stage of the baseline x-vector syste

speaker embeddings text-independent speaker verification triplet loss euclidean distances multi-task training

发现论文，激发创造

不嵌入说话者：长形式神经辨说的无嵌入方法

在本文中，我们提出了一种新的框架，将神经联合抄录模型（EEND）应用于长篇音频，既不需要单独的说话者嵌入，又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。

Jun, 2024

强化学习设置中的专家混合模型

以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能，通过多任务训练模拟非稳态性的扩大，进一步增强学习能力，并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。

Jun, 2024

通过自适应对比三元损失增强多语言中的成语表示

本文提出了一种采用三元损失、自适应对比学习和重采样挖掘器来建立一个适用于训练语言模型的成语感知的学习目标的方法，用于有效地对成语性进行建模，在 SemEval 挑战赛中获得了显著的性能提升。

Jun, 2024

视频帧重复（RoVF）方法用于非洲狐群体重新识别

使用基于 Perceiver 架构的循环头部的方法（RoVF），利用视频剪辑逐次构建嵌入。在 Wellington 动物园收集的浣熊数据集上测试，我们的方法实现了 49% 的首位再识别准确率，高于最佳 DINOv2 模型（42%）。

Jun, 2024

SEFraud：基于图解释掩码学习的自解释欺诈检测

提出 SEFraud，一种新颖的基于图的自解释欺诈检测框架，通过利用可学习的特征掩码和边缘掩码，从信息丰富的异构类型交易中学习表达能力强的表示，采用新的三元组损失增强掩码学习的性能，演示了的效果。在中国工商银行的生产环境中部署并提供可解释的欺诈检测服务，结果与专业人员的业务理解相一致，确认了它在大规模在线服务中的高效性和适用性。

Jun, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D 在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

I2CKD：用于语义分割的课内和课间知识蒸馏

这篇论文提出了一种针对图像语义分割的新型知识蒸馏方法，称为 Intra- and Inter-Class Knowledge Distillation（I2CKD）。该方法的重点是捕捉和转移教师（笨重模型）和学生（紧凑模型）的中间层之间的知识。为了进行知识提取，我们利用特征图生成了类原型。为了促进知识传递，我们采用三元损失来最小化教师和学生原型之间的类内方差，最大化类间方差。因此，I2CKD 能够使学生更好地模拟教师每个类的特征表示，从而提高紧凑网络的分割性能。使用各种教师 - 学生网络对 Cityscapes、Pascal VOC 和 CamVid 三个分割数据集进行广泛实验，证明了所提方法的有效性。

Mar, 2024

CATSE: 一种用于因果目标声音提取的上下文感知框架

目标声音提取（TSE）侧重于从输入混音中分离用户提示的感兴趣源的问题。本文介绍了一种适用于实时处理的上下文感知低延迟因果 TSE 模型，并探索了使用上下文信息的效用，既可通过提供完整上下文信息，也可通过提出的多任务训练损失来实现，从而证明我们的模型在实时 TSE 中胜过了 Waveformer 等实时 TSE 的先进模型。

Mar, 2024

评估深度说话人分析的谱聚类鲁棒性

对于说话人区分，聚类说话人嵌入是至关重要的，但它尚未得到与其他组件一样多的关注。此外，当开发和评估数据来自不同领域时，对于说话人区分在各种数据集上的鲁棒性尚未得到探究。为了弥补这一差距，本研究深入研究了用于同领域和跨领域说话人区分的谱聚类方法。我们在两个广泛使用的语料库 AMI 和 DIHARD 上进行了大量实验，揭示了在领域不匹配情况下的说话人区分性能趋势。我们观察到，两种不同领域条件之间的性能差异可以归因于谱聚类的作用。特别是，在保持其他模块不变的情况下，我们展示了最佳调参参数以及说话人数量估计差异的来源是由于不匹配引起的。这项研究为说话人区分研究开辟了几个未来方向。

Mar, 2024