LightCAM: D-Tdnn 语者验证的快速轻量级上下文感知遮蔽算法实现

Feb, 2024

LightCAM: D-Tdnn 语者验证的快速轻量级上下文感知遮蔽算法实现

LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-Tdnn for Speaker Verification

Di Cao, Xianchen Wang, Junfeng Zhou, Jiakai Zhang, Yanjing Lei...

TL;DR本研究提出了一种快速、轻量级的模型 LightCAM，它采用了深度可分离卷积模块 (DSM) 和多尺度特征聚合 (MFA) 技术，在 VoxCeleb 数据集上进行了广泛实验，结果显示在 VoxCeleb1-O 中，它实现了 0.83 的等错误率 (EER) 和 0.0891 的最小检测费用 (MinDCF)，优于其他主流的说话者验证方法，并且复杂性分析表明所提出的架构具有较低的计算成本和更快的推理速度。

Abstract

Traditional time delay neural networks (TDNN) have achieved state-of-the-art performance at the cost of high computational complexity and slower inference speed, making them difficult to implement in an industrial environment. The →

time delay neural networks densely connected time delay neural network context aware masking lightcam speaker verification methods

发现论文，激发创造

动态全局滤波器双流时间延迟神经网络在说话人验证中的应用

本文提出 Global Filter for TDNN 和 Dual-Stream TDNN 模型，可在语音辨识方面取得显著的效果，同时减少了参数和复杂性。

Mar, 2023

短语音检测的文本无关说话人验证中多尺度频率通道注意力的 TDNN

本研究提出了多尺度频道注意力机制（MFA），其采用新颖的双通道设计，即卷积神经网络和时延神经网络，可用于对不同尺度的讲话者进行表征，并在短语态测试语句下表现出优异的成绩，其在 VoxCeleb 数据库上表现出最先进的性能，同时减少了参数和计算复杂度。

Feb, 2022

基于 TDNN 的说话人验证中的强调通道关注和传递聚合 (ECAPA-TDNN)

本文提出了一种基于统计汇聚、1D Res2Net 模块和 Squeeze-and-Excitation 机制等增强方法的 ECAPA-TDNN 神经网络架构，利用此架构改进了当前流行的 X-Vector 神经网络架构，显著提高了说话人识别性能。

May, 2020

跨时延神经网络用于说话人识别

本研究提出交叉时延神经网络（CTDNN）结构来提高当前 TDNN 的性能，用于说话人识别系统中。CTDNN 在许多任务中提供了比原始 TDNN 更显着的改进，如说话人验证和识别任务，尤其在某些情况下将识别精度提高了一倍以上，此外，CTDNN 还能够更好地处理更大批次的训练数据，并在较短的训练时间内更好地利用计算资源。

May, 2020

TDAM: 基于上下文引导的 CNN 特征选择中的自顶向下注意力模块

该研究提出了一种轻量级的顶部注意力模块 (TDAM)，通过迭代生成一个 “视觉探照灯”，以更多上下文相关的特征图上执行通道和空间调制，从而增强 CNN 在多个目标识别基准测试上的性能，并且能够在不需要显式监督的情况下本地化单个对象或特征。

Nov, 2021

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

使用主动说话者注意力模块的端到端多讲话人音频 - 视觉自动语音识别

本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM)，使用可用的视频信息将解码的文本分配给多个可见面孔中的一个，具有解决多人说话建模方法中的标签歧义问题，该方法实现为基于 Transformer-Transducer 的终端到终端模型，并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估，表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。

Apr, 2022

DMDC: 动态掩膜双摄像机设计用于快照高光谱成像

本研究提出了一种基于动态遮罩的双摄像头系统，在光谱成像方面应用了深度学习方法，通过 RGB 图像学习场景的空间特征分布，然后使用 SLM 编码每个场景，最终将 RGB 和 CASSI 图像发送到网络进行重建，通过实验证明我们的方法在峰值信噪比上相比现有方法提高了 9dB 以上。

Aug, 2023

快速视频语义分割的时态分布网络

该研究提出了一种名为 TDNet 的时态分布网络，旨在实现快速准确的视频语义分割，该网络使用深度卷积神经网络从视频中提取特征，并通过逐帧分布的方式，引入了新颖的注意力传播模块和分组知识蒸馏损失函数，从而达到了较高的分割准确率和更低的延迟。

Apr, 2020

FeatherNets: 轻如羽毛的卷积神经网络用于人脸防欺诈

本研究提出了极致轻量化的神经网络结构，同时设计了一种新颖的集成融合方法和数据集，以提高人脸反欺诈检测的性能和鲁棒性。

Apr, 2019