Deep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。
May, 2017
该研究通过在神经网络的语音信号增强过程中,将 aleatoric 和 epistemic 不确定性模型化,提出了一种模型不确定性建模的框架,并在不同数据集上验证了该方法的有效性。
May, 2023
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
该研究是围绕无需参数的注意力评分机制对说话者验证进行研究,其中提出了一种注意力机制,并与传统余弦相似度基准进行对比,结果表明在多个任务的平均 EER 方面,新的评分机制可将 EER 提高 10%。
Mar, 2022
本论文探讨了单词嵌入模型中相似度得分的实际指示性和有用性,通过引入阈值过滤高度相关的单词,实验证明该方法在信息检索方面具有显著优势。
Jun, 2016
在计算社会科学的各种应用中,静态词嵌入广泛存在并为实际决策做出了贡献,然而,从词嵌入统计中得出的下游结论的统计不确定性评估一直是具有挑战性的。本文提出了一种方法,通过使用多元正态模型的解析近似来获得 GloVe(Pennington 等,2014)的近似、易于使用和可扩展的重建误差方差估计,GloVe 是最广泛使用的词嵌入模型之一。为了展示具有方差(GloVe-V)的嵌入的价值,我们说明了我们的方法如何使核心词嵌入任务中的原则性假设检验变得合理,例如在向量空间中比较不同词对之间的相似性,评估不同模型的性能,并使用不同的词列表分析语料库中的种族或性别偏见的相对程度。
Jun, 2024
使用余弦相似度可对于 NLP 的任务(如问答,信息检索,机器翻译)进行上下文嵌入建模,但是我们发现使用 BERT 解析的余弦相似度在估算词语相似度方面存在高低频词的差异,在控制多义性和其他因素后,高频词与同一词语的其他实例或其他上下文中的其他词语的相似度被低估,这种低估是由于高低频词的代表性几何形状差异导致.
May, 2022
本文研究了利用余弦相似度对词嵌入进行编码的偏见评分,提出了一种新的偏见评分方法 SAME,并用实验证明其比现有的评分方法更能准确评估词嵌入中的偏见。
本文提出了一种基于神经网络中数据嵌入的简单可扩展的可靠置信度评分方法,通过距离损失或对抗训练对得到的嵌入进行处理,比传统置信度评分在分类错误预测、加权分类器集成以及新颖性检测中表现更加优异。
Sep, 2017
使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间,以实现非对称说话者识别系统,并在大规模数据集上训练的模型中,在共享的说话者得分空间中显著优于余弦打分。
Jan, 2024