speech embeddings | BriefGPT

关键词speech embeddings

搜索结果 - 4

增强的说话对话的语音模型中的次语言学特征
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语
PDF6 months ago
IJCAI在多模数据融合中进行长音频采访与问题的时间对齐：一个案例研究
我们提出了一种名为 INDENT 的模型，利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入，从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性（R-avg 提高了约 3%），并
PDF9 months ago
使用说话人表示和自监督上下文嵌入进行口吃检测
本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了
PDFa year ago
EMNLP透过听力引导语义：口语句子嵌入的无监督学习
本研究通过转换语音信号为由声学单元发现生成的隐藏单元并提出了 WavEmbed，一个多模态连续自编码器，用于预测从语音传感器中提取的隐藏单元的密集嵌入，其次通过知识蒸馏提出 S-HuBERT。最佳性能的模型与人类判断之间的相关性中等（0.5
PDF2 years ago