透过听力引导语义：口语句子嵌入的无监督学习

EMNLPOct, 2022

透过听力引导语义：口语句子嵌入的无监督学习

Bootstrapping meaning through listening: Unsupervised learning of spoken sentence embeddings

Jian Zhu, Zuoyu Tian, Yadong Liu, Cong Zhang, Chia-wen Lo

TL;DR本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed，一个多模态连续自编码器，用于预测从语音传感器中提取的隐藏单元的密集嵌入，其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等（0.5~0.6），且无需依赖任何标签或转录，这些模型还可以轻松扩展以利用语音的文本转录来学习更好的嵌入。

Abstract

Inducing semantic representations directly from speech signals is a highly challenging task but has many useful applications in speech mining and spoken language understanding. This study tackles the

unsupervised learning semantic representations speech signals acoustic unit discovery speech embeddings

发现论文，激发创造

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中，我们的实验表明，使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。

Jun, 2022

深度神经网络的无监督音频和语义训练模型

应用深度学习框架从文本特征中提取有意义的表示，研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。

Dec, 2023

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016

智能代理中口语理解的无监督迁移学习

通过使用语言模型的嵌入（ELMo）技术，提出了一种更快、更简单的无监督预训练方法 ELMo-Light（ELMoL），在大量未标记的句子上进行的无监督预训练，在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好，并且当域内的标记样本仅有 1000 个时，我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。

Nov, 2018

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

将语义引入语音编码器

本文提出了一种无监督的任务无关方法，将大型语言模型中的语义信息融合进入自监督语音编码器，提高了其在意图分类，名称实体识别及槽填充等方面的性能，使其达到了有监督方法同等的效果，为已有的语音编码器的无监督实现提供了可行性证明。

Nov, 2022

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

视觉引导的归纳偏置在口语学习中的应用

本文讨论了一种利用多任务学习的方式，在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高，这是由于转录发音为模型提供了很强的归纳偏置，这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。

Dec, 2018

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

利用隐藏单元聚类进行低资源语音应用的表示学习

本研究提出一种利用隐藏单元聚类框架进行自监督表示学习进行说话的表征学习的方法，该方法能够将表示归类为少量的类似音素的单元，通过对两个数据集进行实验证明了其在无监督和半监督声学任务上的有效性。

Jul, 2023