- Img2Vec: Token-Diversity 高的教师帮助掩蔽自编码器
本文提出了一种名为 Img2Vec 的管道,用于深层特征下的掩码图像建模。该框架效果优异,表现出卓越的性能,可在视觉任务中实现优异的综合性能。
- 无监督语音表征池化技术基于向量量化
本文介绍了一种新的汇集方法,通过向量量化可以将声学表示压缩为具有相似声学特性的向量,从而通过对各种下游任务进行评估,比较了我们的方法和监督汇集方法。
- 将空间一致分组与文本监督的语义分割相结合
该研究通过自学习模型和文本监督模型相结合,采用有意义的空间一致性对图像进行语义分割,增强了文本监督模型对物体边界的识别,实现了良好的分割效果。
- 自监督语音模型的集成知识蒸馏
本文提出了一种多自监督语音模型集成的方法,通过使用层次平均聚合不同教师模型的表示,并为学生模型提出了多重预测头方法,从而大大提高了四个下游语音处理任务的性能,并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。
- 无监督物体检测和实例分割的切割学习
提出了一种名为 Cut-and-LEaRn(CutLER)的简单方法,以训练无监督的物体检测和分割模型,它首先使用所提出的 MaskCut 方法生成图像中多个对象的粗略蒙版,然后在这些蒙版上学习检测器,最后通过对模型的预测进行自我训练实现零 - MTNeuro: 评估不同抽象层次的大脑结构表征的基准
通过对小鼠大脑(涉及多个皮层区和亚皮层区)成像图像的研究,发现自监督方法可以用来学习能够捕获图像多个属性的表征,并在多个下游任务上表现良好的特征。提供了多任务神经影像基准(MTNeuro)的数据集,注释和多个下游任务,其中包括对大脑结构和架 - EURO: ESPnet 无监督自动语音识别开源工具包
本文描述了 ESPnet Unsupervised ASR Open-source Toolkit (EURO),这是一个用于无监督自动语音识别 (UASR) 的端到端开源工具包,它采用了 Wav2vec-U 的最先进的学习方法,综合 27 - 基于预训练 SSL、ASR、LM 和 SLU 模型的口语理解整合研究
本研究旨在探索使用预训练策略增强口语理解任务性能,通过自监督的语音和语言模型在 SLU 测评基准上进行实验,发现预训练模型可于低资源环境中提升结果,其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。
- 从预训练自监督语音模型中分析声学词嵌入
本研究研究了多种预训练模型和池化方法,用于构建自监督表征下的变长口语单词片段的声学词嵌入,发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果,并且在 XiTsonga、Mandarin、French 上显著优于多语 - 解析 wav2vec 特征编码的黑盒
本文研究了自监督模型 Wav2vec 及其变体在语音领域的各种下游任务中的应用。通过对其卷积特征编码器进行分析,发现该模型可以表示离散的声学单元,从而实现更加高效的语音识别。
- 自监督模型的数据集推理
研究了使用私有训练集对抗模型盗窃的方法, 自监督模型在数据集上的推断是保护这些模型的有效方法,同时该方法提出了衡量被盗模型仿真度的方法。
- IndicSUPERB:印度语言语音处理通用性能基准
该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集,同时提供了 IndicSUPERB 基准集,为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估, - 朝着低成本的端到端口语理解
该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本,同时在 FSC 和 MEDIA 语料库上的实验表明,该方法可以在保持最先进性能的同时降低学习成本。
- 自动端到端语音理解的轻量化实现
这篇论文研究了自我监督模型在大语音语料库中训练的近期进展,并比较了几种学习策略以减少计算时间和能源消耗成本,但保持竞争性能表现。
- 自监督语音模型是否具有类人感知偏见?
通过研究 wav2vec 2.0,HuBERT 和 CPC 三种最先进的自监督模型的表示空间,与法语和英语人类听众的感知空间作比较,我们发现 CPC 模型具有微小的母语语言效应,但 wav2vec 2.0 和 HuBERT 似乎发展出了一种 - HuBERT-EE:高效语音识别的早期退出 HuBERT 模型
研究使用自监督模型 HuBERT 和 wav2vec 2.0 在自动语音识别中取得了显著的性能改进,但这些模型通常需要高昂的计算成本来实现出色的性能,从而拖慢了推理速度。为了提高模型效率,我们提出了一种早期退出方案,即 HuBERT-EE, - 自监督语音转文本系统中性别影响的研究
本研究使用法语作为研究语言,通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明,性别平衡的预训练模型不一定导致最佳结果,并且使用自监督模型作为特征提取器时,ASR 和 ST 的结果会遵循更复杂的模式。
- SimReg: 回归方法作为一种简单而有效的自监督知识蒸馏工具
通过改变神经网络体系结构,特征回归可以超越更复杂的最新方法,实现从自监督模型中提取知识的目的,并在 ImageNet 数据集上得到验证。
- 自监督模型是持续学习者
在连续学习的场景中,无监督模型的效果会大幅降低。本文提出了一种将自监督损失函数转换为知识蒸馏机制的方法,并通过加入预测器网络实现 Continual self-supervised visual representation Learnin - EMNLP压缩、转换和创造:一个评估自然语言生成的统一框架
本文提出了一种统一的自然语言生成(NLG)任务评估度量方法,基于信息对齐的概念,通过设计可解释的度量标准并使用自监督模型实现了度量方法的操作化,结果表明所提出的统一设计度量方法在各种 NLG 实验中具有比现有度量方法更强的相关性。