建模多变量重叠:一种衡量元音合并的方法
我们通过数据驱动的计算建模对元音和谐进行了跨语言研究,使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性,训练使用具有较少或无屈折的跨语言可比较的原型形式,结果表明,神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外,我们的工作还表明词列表是一种有价值的资源,可以用于语言类型学研究,并为未来关于低资源、少研究的语言提供了新的可能性。
Aug, 2023
本文针对高斯混合模型和已知样本分配的情况,通过求解广义本征值问题导出了一种基于成分重叠的测量方法,并通过模拟结果表明其可以很好地反映线性近似的积分测量行为。
Jul, 2014
本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性,通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式,并通过熵分析发现少重叠语音的语言更易于跨语言传输,在融合单语言模型方面取得了相对于单语言识别的 8%的改进。
Jul, 2022
本文提出了一种贝叶斯合并方法来解决多词汇表中的词汇相关问题,并通过基于图像和特征级别的联合相似度评估其有效性。经过广泛的实验,该方法证明了在多词汇表合并中的竞争性性能。
Mar, 2014
使用基于词元的训练 - 测试分割方法重新评估形态学屈折模型,结果表明对于不同的语言模型的泛化性能有着不同程度的影响,尤其对于低资源语言的影响更大。
Aug, 2021
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
在低资源语言研究的高度受限背景中,我们探讨了预训练模型的语音向量表示,以确定其相对于音频信号的抽象程度。我们提出了一种新的无监督方法,利用精心策划的元数据在音频录音上进行 ABX 测试,以揭示这些表示所包含的信息类型。通过三个实验,验证了从具有不同语言 / 非语言特征的录音中提取的表示在相同方面上的差异。将更多音频信号嵌入一个向量中可以更好地区分非语言特征,而较短的片段则更好地区分分段信息。该方法完全无监督,有可能为对少有文献的语言进行比较研究开辟新的研究方向。
Feb, 2024
评估在开放词汇分割中采用的评估指标存在问题,即评估过程仍然严重依赖于零样本或交叉数据集流水线上的闭集指标,而未考虑预测和实际类别之间的相似性。为了解决这个问题,我们首先通过综合定量分析和用户研究使用 WordNet 语言统计、文本嵌入和语言模型调查了 11 种不同的相似性测量方法。在此基础上,我们设计了针对三个开放词汇分割任务的新型评估指标,即 Open mIoU、Open AP 和 Open PQ。我们在三个分割任务的 12 种开放词汇方法上对所提出的评估指标进行了基准测试。尽管相似性距离的相对主观性,我们证明了我们的指标仍然能够很好地评估现有的开放词汇分割方法的开放能力。我们希望我们的工作能够为社区带来关于如何评估模型的开放能力的新思考。评估代码在 github 上发布。
Nov, 2023
本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异,结果表明,基于声学模型的方法优于基于电话转录的方法,且 XLSR-53 模型在荷兰方言的微调后表现最佳,仅仅利用六秒的语音,即可得到与实际情况吻合的聚类。
May, 2022
本文研究单词嵌入模型的集成式线性方法,使用基于普通最小二乘回归或正交 Procrustes 问题的迭代方法构造组合模型,并在爱沙尼亚语中进行了实验比较,结果表明使用正交 Procrustes 将多个单词嵌入模型组合成集成模型可能导致同义词测试中相对于初始模型的平均结果提高 7-10%和类比测试提高 19-47%。
Apr, 2017