spoken language modeling | BriefGPT

关键词spoken language modeling

搜索结果 - 5

基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成
本文提出了一种强大而高效的图像到语音字幕（Im2Sp）模型构建方法，引入了大规模预训练的视觉 - 语言模型相关知识，并将其输出设置为离散化的语音单元，即自我监督语音模型的量化语音特征，以实现将预训练的视觉 - 语言模型的语言建模能力融入到
PDF10 months ago
自监督表示在口语建模中的鲁棒性
本文探讨了基于自监督学习的语音表征模型的鲁棒性问题，提出了一种基于伪标注技术的有效学习自监督语音表征的方法，该方法可显著提高语音编码的效果，并在语音翻译任务中得到了验证。
PDF2 years ago
应用 ASR 生成的文本进行语言模型预训练用于语音任务
使用自动转录的大规模语音来改进口语语言建模，利用法国国家音频视觉学院收集的文本数据应用 ASR，并在现有模型（FlauBERT）微调或从头开始训练口语语言模型，生成新模型（FlauBERT-Oral），并在口语理解、电视节目分类和语音句法分
PDF2 years ago
口语建模需要离散单元吗？
本文研究了在语音语言建模中，离散与连续表示的作用，结论表明离散化具有重要作用，并在 HuBERT 特征上训练了语言模型，在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳
PDF2 years ago
2021 年零资源语音基准：自监督口语建模的度量和基线
本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、
PDF4 years ago