- 无缝语言扩展:增强自监督模型中的多语言掌握能力
我们提出了通过将 LoRA 整合到已有的自我监督模型中,实现新语言的自适应,并通过数据结合和重新聚类等保护策略来保持对已有和新语言的性能保持完整,实验证明该方法使 mHuBERT 应用于新语言(普通话)的 MOS 值增加 1.6,WER 相 - 使用感知组件解释表示学习
通过使用三个关键的感知组件:颜色、形状和纹理,我们采用选择性的掩模来观察表示的变化,从而获得每个感知组件的独特重要性图,从而增强了表示空间的可解释性,提供与人类视觉感知共鸣的解释。
- 利用数据驱动和基于知识的特征预测心脏活动的语音
通过研究语音与心脏活动的声学相关性,本研究证明了自监督语音模型在预测心脏活动参数方面胜过传统声学特征,并强调了个体变异对模型的普适性的影响,这些发现突显了数据驱动模型在这类任务中的价值,并需要更多基于语音的生理数据来解决与说话者相关的挑战。
- 自监督数据集压缩:压缩就是你所需的
基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩,并利用大型预训练模型的潜力,提出了 SC-DD 框架,相对传统的监督学习方案,它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力,并在 CIFAR-100、Tiny-ImageN - 端到端自调整自监督时间序列异常检测
通过自动化调整数据增强技术进行时间序列异常检测,以提高无监督模型的性能。
- MagicLens:自我监督图像检索与开放式指令
利用文本指令和多模态模型实现自我监督图像检索,能够检索到具有丰富关系的图像,超过了先前最先进的方法,并且模型体积更小,同时支持多样的搜索意图。
- OMH:通过最佳匹配层次结构实现无监督语义分割的结构稀疏化
无监督语义分割涉及在没有预定义标签的情况下对图像进行分割,以减轻广泛的人工标注负担。本文介绍了一种称为 “优化匹配层次” 的新方法,以同时解决上述问题。我们的方法的核心在于对特征空间进行结构化稀疏性约束,使得特征能够以不同的粒度编码信息。通 - 镜中机器人:通过关联自监督模型学习模仿
我们通过联合不同的自监督模型来构建一个定制模型,以解决智能机器人通过镜子观察自身并学习从图像中检测自己身体的 3D 姿势的问题。我们展示了该方法的实例,并通过对模型的部署进行了较全面的研究和评估,以提高模型的性能和调整超参数。
- 2023 ML-SUPERB 挑战赛的发现:跨更多语言和领域的预训练和评估
2023 年多语言演讲通用性能基准(ML-SUPERB)挑战扩展了备受赞誉的 SUPERB 框架,强调自监督模型在多语音识别和语言识别中的应用。挑战包括一个研究轨道,重点是将 ML-SUPERB 应用于特定的多语言主题,一个挑战轨道,用于模 - 预训练网络能否检测到熟悉的非分布数据?
揭示预训练模型在预训练算法视角下,外分布数据对外分布检测性能的影响,并提出利用实例间鉴别性特征空间独立于 ID 决策边界的方法解决预训练模型的脆弱性。
- 其他计算机视觉任务与深度伪造检测的接近程度如何?
在这篇论文中,我们质疑传统的观点,即在深度伪造检测中,经过监督训练的 ImageNet 模型具有强大的泛化能力并适用于作为特征提取器。我们提出了一种新的度量方法,称为 “模型可分离性”,用于以一种无监督的方式视觉与定量地评估模型分离数据的能 - 视觉 Transformer 需寄存器
提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。
- 揭开隐藏的领域:遮挡环境中自监督骨架动作识别
将动作识别方法集成到自主机器人系统中,考虑目标遮挡的不利情况是至关重要的。我们提出了一种简单有效的方法,通过预训练使用遮挡的骨架序列,然后使用 KMeans 对序列嵌入进行聚类,以填补缺失的骨架数据,从而为现有基于骨架的自监督模型带来显著的 - AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准
音频 - 视觉表示学习,一种开发具有类似于人类感知的系统的方法,利用声音和视觉信息之间的相关性。然而,目前的模型往往专注于有限的任务集,并且对学习表示的泛化能力尚不清楚。因此,我们提出了 AV-SUPERB 基准,它在涵盖语音和音频处理中的 - 通过解耦知识蒸馏,用 LSTM 压缩 HuBERT
将知识蒸馏方法应用于压缩 HuBERT 的 Transformer 层,减少参数数量并在自动语音识别中提升性能。
- ICCV通过势能视角探索模型的可迁移性
通过模拟基于力学的物理模型,对模型的选择进行重新定义,并通过捕捉动态表示的运动来评估可迁移性,从而增强传统的模型评估方法并提高性能。
- 深度伪造视频检测:一项比较分析
本研究通过对监督和自监督模型进行全面的比较分析,评估了八种监督深度学习架构和两种基于转化器的使用自监督策略(DINO,CLIP)进行预训练的模型在四个基准数据集上的性能,同时还研究了模型大小和性能之间的权衡,以提供关于不同深度学习架构、训练 - ICML自我监督学习中是否存在双重跌落现象?
在自监督模型中,双下降现象可能不存在,两种未被研究的设置(标准自编码器和线性自编码器)的测试损失曲线分别为经典的 U 形或单调递减形,这一结果帮助我们更好地认识此现象的理论基础。
- 基于设备的约束自监督语音表示学习在关键词检测中的应用:知识蒸馏
提出了一种基于知识蒸馏的自监督语音表示学习(S3RL)体系结构,用于在设备上进行关键词检测任务,通过使用双视角交叉相关蒸馏和教师的码本作为学习目标,在设备资源限制内构建自监督模型,对 Alexa 关键词检测任务表现出非凡的性能。
- MIMIC:带有图像对应关系的遮蔽图像建模
提出了一种无需注释,挖掘多视的图像对来训练自监督模型,来提高预训练数据集的效果;在深度估计、语义分割等任务上,相比于基于注释的预训练和冻结表示,使用提出的 MIMIC 数据集训练的表示性能更好。