ZR-2021VG:零资源语音挑战,基于视觉支持的语言建模赛道,2021 年版
本文介绍了一项新挑战,旨在从原始语音中发现子词和单词单位。该挑战旨在构建跨语言的系统,并适应新的讲话者,介绍了挑战的设计特点和评价指标,并讨论了十七个模型的结果。
Dec, 2017
该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛,要求参与者直接从音频中学习语言模型,无需任何文本或标签,并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。
Apr, 2021
通过 Zero Resource Speech Challenge 比赛,发现无标签的原始音频信号中的语音表示,主要包括发现低比特率的子词表示,以优化语音合成的质量;和发现未经分割的原始语音中的类似单词的单位。
Oct, 2020
本文介绍了一项新的无监督任务:口语语言建模并给出了 Zero Resource Speech Benchmark 2021,使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量,包括语音、词汇、语法和语义,并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本,表明了从原始语音中建立口语语言建模的可行性,但这种简单管道与文本为基础的 “顶线” 系统相比,性能较差,需要使用更复杂的端到端模型来探索。
Nov, 2020
通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结,讨论了自我监督或无监督机器学习的最新进展,并重点介绍了声学单元发现,口语术语发现,离散重构和口语语言建模四项任务的相关度量标准和基准,促进了模型比较和累积性进展。
Oct, 2022
本研究基于最近提出的 FaST-VGS 模型,该模型是一种基于 Transformer 的模型,学习将原始语音波形与语义相关的图像相关联,同时引入了一种新颖的扩展模型 FaST-VGS +,该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲,几乎在 Lexical 任务上与最佳系统相媲美。
Feb, 2022
本文介绍了 2019 年零资源语音挑战赛,该赛事要求在没有文本或音标的情况下构建语音合成器,提供了一个目标语音的原始音频,但没有文本或标签。参赛者必须以无监督的方式发现子单元,并以最佳方式将其与声音记录对齐,以便从新的演讲者中综合出类似目标说话人的声音来生成新的话语。本文还讨论了比赛的 19 个参赛系统和主要结果。
Apr, 2019
本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果,采用了 7 个模型,包含 3 种不同类型的模型结构,并注重训练模型来学习额外时域的信息。通过正确的评估过程,使用自适应对称规范化(AS-Norm)和矩阵分数平均(MSA)的评分方法以及逻辑回归的模型混合,最终提交获得了 0.165 的 DCF 和 2.912%的 EER。
Sep, 2022
ZRIGF 是一种创新的多模态框架,用于零资源情境下基于图像的对话生成,包括对抗性预训练和生成性预训练两个阶段,通过映射和融合图像和文本,生成上下文相关和有信息量的回应。
Aug, 2023
本文提出了一种名为 V-GLOSS 的方法,利用现代语言模型和语义知识库生成视觉上有根据的类别描述,进而解决现有方法中存在的粒度和标签歧义问题。通过在 ImageNet 和 STL-10 等基准 ZSIC 数据集上实现最新的结果,证明了 V-GLOSS 的有效性,并引入了一个 V-GLOSS 生成的类别描述的银数据集,并展示了它在视觉任务中的有用性。
Jun, 2023