利用大规模跨语言模型在不同维度之间确定音频录音之间的相似程度

ACLFeb, 2024

利用大规模跨语言模型在不同维度之间确定音频录音之间的相似程度

Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models

PDF

Maxime Fily, Guillaume Wisniewski, Severine Guillaume, Gilles Adda, Alexis Michaud

TL;DR在低资源语言研究的高度受限背景中，我们探讨了预训练模型的语音向量表示，以确定其相对于音频信号的抽象程度。我们提出了一种新的无监督方法，利用精心策划的元数据在音频录音上进行 ABX 测试，以揭示这些表示所包含的信息类型。通过三个实验，验证了从具有不同语言 / 非语言特征的录音中提取的表示在相同方面上的差异。将更多音频信号嵌入一个向量中可以更好地区分非语言特征，而较短的片段则更好地区分分段信息。该方法完全无监督，有可能为对少有文献的语言进行比较研究开辟新的研究方向。

Abstract

In the highly constrained context of low-resource language studies, we explore vector representations of speech from a pretrained model to determine their level of abstraction with regard to the audio signal. We

low-resource language vector representations abx tests linguistic/extra-linguistic characteristics under-documented languages

发现论文，激发创造

从 “片段语言” 到文品语言和方言：利用语音的神经表征将音频信号置于语言景观中

通过多语种语音模型 XLSR-53，利用神经表示来估算音频文件之间的相似度，以此抽取有价值的语言特性，从而揭示了神经表示中所包含的语言信息。

May, 2023

用有限资源通过声学手段量化语言变异

本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异，结果表明，基于声学模型的方法优于基于电话转录的方法，且 XLSR-53 模型在荷兰方言的微调后表现最佳，仅仅利用六秒的语音，即可得到与实际情况吻合的聚类。

May, 2022

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

通过语音转录生成特征向量的跨语言数据格式

通过提出新的方法，动态地为所有可以表示为 CLTS 标准版本中的声音创建二进制特征向量，我们解决了缺失数据的问题，可以直接访问非常庞大的多语言词表集合，并证明该特征系统不仅可以提供比较语音相似性的简便手段，还可以在未来的跨语言机器学习应用中发挥其潜力。

May, 2024

呼叫中心对话中语音连续情绪识别的声学和语言表征

本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪，并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式，对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升，并发现语言内容在满意度预测中起着明显的主导作用，并且对未知数据的泛化能力更强。此外，融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题，并试图从不同的视角估计此变异性：权重初始化、置信区间和注释主观性。对语言内容进行了深入分析，研究了能够解释语言模态在此任务中高贡献的可解释因素。

Oct, 2023

口语句子的语音语言嵌入

本文提出了一种同时考虑音频和语言内容的口语句子嵌入方法，并通过音频 - 语言多任务学习问题构建了编码器 - 解码器模型，以学习长期依赖关系。实验表明，在语音识别和情感识别任务中，口语句子嵌入优于基于音素和单词级别的基准模型，且我们的嵌入模型可以更好地模拟高级声学概念并保留语言信息。因此，本文展示了一种泛化的多模态句子嵌入方法，并证明了其在口语语言理解方面的可行性。

Feb, 2019

跨语言声学 - 语音相似度对多语种语音识别的影响研究

本文提出了一种新的数据驱动方法来研究跨语音识别方案中的跨语言声学语音相似性，通过训练深度神经网络来将来自不同声音模型的分布转化为可直接比较的形式，并通过熵分析发现少重叠语音的语言更易于跨语言传输，在融合单语言模型方面取得了相对于单语言识别的 8％的改进。

Jul, 2022

一种使用预先训练的自编码器进行跨语言语言转换的简单几何方法

本文研究了在多语言训练中的强大的语句编码器，探讨了是否可以通过几何映射来间接地操纵语言属性，并用预训练的多语言自编码器验证了该方法的有效性。

Apr, 2021