ZR-2021VG：零资源语音挑战，基于视觉支持的语言建模赛道，2021 年版

Jul, 2021

ZR-2021VG：零资源语音挑战，基于视觉支持的语言建模赛道，2021 年版

ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language Modelling track, 2021 edition

Afra Alishahi, Grzegorz Chrupała, Alejandrina Cristia, Emmanuel Dupoux, Bertrand Higy...

TL;DR本文介绍了在 2021 年第二届无资源语音挑战赛中引入的视觉对齐语言建模轨迹，讨论了参与规则，包括我们针对此轨迹开发的两个基准系统。

Abstract

We present the visually-grounded language modelling track that was introduced in the zero-resource speech challenge, 2021 edition, 2nd round. We motivate the new track and discuss →

visually-grounded language modelling zero-resource speech challenge participation rules baseline systems

发现论文，激发创造

零资源语音挑战赛 2017

本文介绍了一项新挑战，旨在从原始语音中发现子词和单词单位。该挑战旨在构建跨语言的系统，并适应新的讲话者，介绍了挑战的设计特点和评价指标，并讨论了十七个模型的结果。

Dec, 2017

零资源语音挑战赛 2021: 口语语言建模

该研究提出了 Zero Resource Speech Challenge 2021 语音挑战赛，要求参与者直接从音频中学习语言模型，无需任何文本或标签，并提供了一种基于对比性预测编码器、量化器和标准语言模型的管道基线系统。

Apr, 2021

零资源语音挑战 2020: 发现离散的子词和单词单元

通过 Zero Resource Speech Challenge 比赛，发现无标签的原始音频信号中的语音表示，主要包括发现低比特率的子词表示，以优化语音合成的质量；和发现未经分割的原始语音中的类似单词的单位。

Oct, 2020

2021 年零资源语音基准：自监督口语建模的度量和基线

本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Nov, 2020

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

自监督语音表征学习：基于视觉辅助和屏蔽语言建模

本研究基于最近提出的 FaST-VGS 模型，该模型是一种基于 Transformer 的模型，学习将原始语音波形与语义相关的图像相关联，同时引入了一种新颖的扩展模型 FaST-VGS +，该模型在多任务训练中学习了掩码语言建模目标和视觉基础目标。我们的研究在 ZeroSpeech 2021 Challenge 和 SUPERB benchmark 上表现强劲，几乎在 Lexical 任务上与最佳系统相媲美。

Feb, 2022

零资源语音挑战赛 2019: 无 T 的 TTS

本文介绍了 2019 年零资源语音挑战赛，该赛事要求在没有文本或音标的情况下构建语音合成器，提供了一个目标语音的原始音频，但没有文本或标签。参赛者必须以无监督的方式发现子单元，并以最佳方式将其与声音记录对齐，以便从新的演讲者中综合出类似目标说话人的声音来生成新的话语。本文还讨论了比赛的 19 个参赛系统和主要结果。

Apr, 2019

VoxCeleb 2022 发言人识别挑战中的 ReturnZero 系统

本文介绍了团队 RTZR VoxCeleb 在闭合数据集、发言人验证 Track1 方面的顶尖成果，采用了 7 个模型，包含 3 种不同类型的模型结构，并注重训练模型来学习额外时域的信息。通过正确的评估过程，使用自适应对称规范化（AS-Norm）和矩阵分数平均（MSA）的评分方法以及逻辑回归的模型混合，最终提交获得了 0.165 的 DCF 和 2.912％的 EER。

Sep, 2022

ZRIGF: 零资源图像引导对话生成的创新多模态框架

ZRIGF 是一种创新的多模态框架，用于零资源情境下基于图像的对话生成，包括对抗性预训练和生成性预训练两个阶段，通过映射和融合图像和文本，生成上下文相关和有信息量的回应。

Aug, 2023

基于视觉信息的描述提升零样本图像分类

本文提出了一种名为 V-GLOSS 的方法，利用现代语言模型和语义知识库生成视觉上有根据的类别描述，进而解决现有方法中存在的粒度和标签歧义问题。通过在 ImageNet 和 STL-10 等基准 ZSIC 数据集上实现最新的结果，证明了 V-GLOSS 的有效性，并引入了一个 V-GLOSS 生成的类别描述的银数据集，并展示了它在视觉任务中的有用性。

Jun, 2023