BriefGPT.xyz
大模型
Ask
alpha
关键词
spoken language modeling
搜索结果 - 5
基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成
本文提出了一种强大而高效的图像到语音字幕(Im2Sp)模型构建方法,引入了大规模预训练的视觉 - 语言模型相关知识,并将其输出设置为离散化的语音单元,即自我监督语音模型的量化语音特征,以实现将预训练的视觉 - 语言模型的语言建模能力融入到
→
PDF
10 months ago
自监督表示在口语建模中的鲁棒性
本文探讨了基于自监督学习的语音表征模型的鲁棒性问题,提出了一种基于伪标注技术的有效学习自监督语音表征的方法,该方法可显著提高语音编码的效果,并在语音翻译任务中得到了验证。
PDF
2 years ago
应用 ASR 生成的文本进行语言模型预训练用于语音任务
使用自动转录的大规模语音来改进口语语言建模,利用法国国家音频视觉学院收集的文本数据应用 ASR,并在现有模型(FlauBERT)微调或从头开始训练口语语言模型,生成新模型(FlauBERT-Oral),并在口语理解、电视节目分类和语音句法分
→
PDF
2 years ago
口语建模需要离散单元吗?
本文研究了在语音语言建模中,离散与连续表示的作用,结论表明离散化具有重要作用,并在 HuBERT 特征上训练了语言模型,在 Zero Resource Speech Challenge 2021 中实现了最新的语言词汇、句法和语义方面的最佳
→
PDF
2 years ago
2021 年零资源语音基准:自监督口语建模的度量和基线
本文介绍了一项新的无监督任务:口语语言建模并给出了 Zero Resource Speech Benchmark 2021,使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量,包括语音、词汇、语法和语义,并基于 CPC、
→
PDF
4 years ago
Prev
Next