- 自我监督解开说话人确认中的声音和内容
该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架,并通过使用三个高斯推理层实现,其中每个层由可学习的转换模型组成,能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效 - 语音与文本联合理解
通过整合悄悄话作为感知模块和 LLaMA 作为推理模块,LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。
- TalkNCE:利用 Talk-Aware 对比学习改进主动说话者检测
通过探索网络架构,以及使用自然语音与面部动作之间的对应进行学习,我们提出了一种新颖的 TalkNCE 对比损失函数,可用于主动说话者检测任务,无需额外的监督或训练数据,可以与现有的主动说话者检测模型在 AVA-ActiveSpeaker 和 - ICCV生动演讲者:走向语义感知的共同语言手势生成
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作 - BodyFormer:基于 Transformer 的语义引导的三维身体手势合成
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
- 利用标签信息进行多模态情感识别
通过利用标签信息进行多模态情绪识别,我们提出了一种新的方法,通过标签 - 令牌和标签 - 帧交互来学习每个话语的标签增强文本 / 语音表示,并设计了一种新的标签引导的注意融合模块,以融合具有标签意识的文本和语音表示进行情绪分类,实验证明该方 - 量化语音中词汇和非词汇通道的感知价值
通过量化非词汇信息对对话期望的感知价值,本文展示非词汇信息在对未来对话的期望中产生一致影响,即使在与仅有词汇内容相比出现较差的鉴别性判断时,它也在参与者之间产生更高的共识。
- 抑郁症患者言语特征变化关系:改善抑郁症检测速度与表现的特征相关性
抑郁症将语音特征之间的相关性改变,并表明利用这种洞察可以提高基于 SVM 和 LSTM 的抑郁症检测器的训练速度和性能。
- 利用患者讲话转录和音频数据探索阿尔茨海默病检测的多模态方法
这项研究通过使用患者的语音和剧本数据,通过预训练语言模型和图神经网络来构建语音剧本的图,并提取特征进行阿尔茨海默病检测,同时引入音频数据和对小数据集进行增强处理,进而将音频特征与文本特征融合,最后尝试将语音剧本转化为音频进行对比学习,研究结 - 双向语言模型在语义分割中改善长篇语音识别
通过从语言模型中提炼标点符号知识,并将其应用于分割长篇语音,我们研究出一种优于其他方法的,实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。
- 自监督语音表示中的手机和扬声器空间组织
本文分析了几种最先进的自监督语音表示中的电话和说话者信息的空间组织,并使用表示相似性分析测量不同层如何编码基本声学参数,例如共振峰和音高,进一步使用非参数统计测试研究每个表示在电话或说话者类别上进行聚集的程度,结果表明,模型根据预训练时使用 - 对话中语音情感识别的分段特征表示的深度学习
本文针对会话中情绪识别的复杂性,提出了一种利用双向门控循环神经网络捕捉上下文相关性和说话人之间相互作用的对话情感识别方法。实验结果表明该方法比现有的最先进方法更为有效。
- 无监督语音重构中解离韵律表示
本文讨论并提出一种名为 Prosody2Vec 的语音重构模型,能够从无标记的情感语音语料库中学习韵律信息表示,并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉,同时与 HuBERT 表示相结合时表现优于最先进的方法。
- COLING从带噪声的语音和语言数据出发的,基于数据驱动的区别抑郁症和痴呆症的方法
本篇论文研究并对比了线性与非线性聚类方法,以鉴别从语音中区分痴呆和抑郁症之间的能力,研究结果表明,非线性聚类技术可以更好地区分不同疾病群集。从输出结果来看,几种能区分痴呆和抑郁症的主要不同症状为:声学异常、言语的重复性、词语查找困难、认知障 - AAAI使用图神经网络进行语音情感识别的表征学习
本论文采用基于余弦相似度的图卷积神经网络 (CoGCN) 框架来进行情感识别的表达学习,该方法对于噪声和扰动具有鲁棒性,只需使用 1/30 的参数即可获得与最先进的方法相当的结果。
- BYOL-S: 通过启动自助学习的方式学习自监督语音表示
本研究使用自我监督学习与深度神经网络等方法,探索提取声音和语音特征的最优表征,提出了多种编码器架构,并探讨了不同的预训练数据集。最后,我们提出了一个新的训练框架,用于结合手工特征和数据驱动特征,得到一个混合音频表征。在 HEAR 毕业设计的 - 交叉编织多模态编码器
本文提出了一种新的多模态语音和文本输入结构,使用多头交叉注意力结合预训练语音和文本编码器,并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测,并高效地捕获声学 - 韵律和词汇信息。
- ACLAB/BA 分析:在保持音频隐私的同时估计关键词检测召回率提高的框架
本研究提出了一种名为 AB/BA 分析的技术,该技术可在隐私约束下,无需负样本即可使用交叉数据集进行相对召回率估计,以及在机器生成的软标签的帮助下进行半监督分析。通过实验,研究表明 AB/BA 分析可成功衡量召回率的改进和相对假阳性率的平衡 - 从语音中生成自由形式的身体动作
该论文提出了一种新型的自由形式动作生成模型(FreeMo),通过将共同话语动作分解为姿态模式和节奏动力学,利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成,从而在几个基准测试中展示出优秀的性能。
- 挪威议会演讲语料库
使用挪威议会语音语料库进行自动语音识别训练较手稿朗读语音训练效果更好,尤其对方言的识别表现更出色。