- 人群变换器:学习颅内活动的人群级表示
我们提出了一个自主训练框架,以大规模学习人口层级下的颅内神经记录,实现了对关键的神经科学记录模态的表示学习的益处。Population Transformer(PopT)降低了解码实验所需的数据量,同时提高了准确性,即使在以前从未见过的受试 - 利用语言引导的自监督视频摘要生成方法,考虑视频多样性的文本语义匹配
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为 - 使用变长软池化方法从语音表示中去除说话人信息
通过利用语音的结构性质,采用神经网络预测边界从而实现可变长度池化,以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法,该模型训练时被评估为包含内容信息但独立于说话人信息。
- 学习排名补丁以进行无偏差的图像冗余减少
我们提出了一种自我监督的图像冗余减少框架,称为学习排名补丁(LTRP),它通过推断每个补丁的语义密度得分,并学习使用伪分数对补丁进行排序,充分评估图像内容,克服了分类归纳偏差的困境,从而在不同数据集和任务上优于监督和其他自我监督方法。
- 自学习的规范空间用于多视角三维人体姿态估计
提出了一种名为 CMANet 的全自我监督框架,利用多视角信息来预测准确的多视角 3D 人体姿势,通过聚合视角内和视角间信息,构建一个规范化参数空间
- SpikeReveal:从真实模糊输入中解开时间序列的尖峰流
提出了第一个自监督框架来解决基于脉冲引导的运动去模糊任务,通过理论关系和知识蒸馏设计轻量级去模糊网络,生成与原始输入亮度和纹理一致的高质量序列。
- AutoPRM:通过可控的问题分解自动化多步推理的过程监督
本研究提出了一种自监督框架 AutoPRM,通过将复杂问题分解为可管理的子问题,并应用强化学习迭代地改进子问题的求解器,从而显著提高了数学和常识推理任务的性能。
- 医学图像分割密集层级表示的自监督学习
通过自监督框架学习适用于密集下游任务的体素级粗细粒度表示,通过平衡多尺度特征的贡献,确保学习到的表示捕捉到粗粒度和细粒度的细节,并在有限的注释数据下持续优于基准模型。
- 面向实际场景的失真感知变化检测
我们提出了一种可重复使用的自监督框架,用于处理变时地几何畸变问题,通过单阶段预训练可以改善变时地几何畸变,并提升变化检测的性能。
- Dress-Me-Up: 一个用于自监督三维服装再定位的数据集和方法
我们提出了一种新颖的自监督框架,用于在任意形状和姿势的三维人体化身上重定向非参数化的三维服装,实现三维虚拟试穿。我们引入了基于 Isomap 嵌入的对应匹配方法,以获得两个网格之间的粗略对齐,并在自监督环境下进行精细对齐的神经改进。此外,我 - 高效学习的无监督卫星图像建筑损伤检测
在这篇论文中,我们研究了一种具有挑战性但实用的无监督建筑损害检测(U-BDD)场景,该场景下只提供了未标记的灾后和灾前卫星图像对。我们首先提出了一种先进的 U-BDD 基线模型,该模型利用预训练的视觉 - 语言基础模型来解决 U-BDD 任 - 基于临床时间序列的转换器方法接近不良事件检测
我们的研究旨在开发一种异常检测系统,以识别与预期临床发展不符的偏差。通过分析挪威北部医院信托公司(NHT)获得的 16 个月的生命体征记录,我们采用基于 STraTS 变压器架构的自监督框架来表示时间序列数据。然后,利用各种聚类技术对这些表 - 语言模型作为语义索引器
本文介绍了 LMINDEXER,一种自我监督框架,用于学习语义标识符,该方法能够处理顺序离散标识符的挑战,并通过生成性语言模型和自监督文档重构目标进行训练,从而改善了语义监督不足的问题。通过在不同领域的五个数据集上进行实验证明,LMINDE - ICCVLAC:基于骨骼的动作分割的潜在行动组合
骨架动作分割需要在未修剪的视频中识别可组合的动作。本文提出了一种名为潜在动作组合(LAC)的自监督框架,通过学习合成的可组合运动,从骨架动作序列中学习视觉表示,在转移学习中表现出色。
- 全局特征和超列特征之间的跨情境学习的自监督表示学习
我们提出了一种新的自监督框架,利用交叉背景学习全局特征和超列特征之间的一致性,以增强实例之间的关系,实验证明我们的方法胜过现有的最先进方法。
- ICCVP2C: 来自单个部分点云的无监督点云补全
Point cloud completion using a self-supervised framework called Partial2Complete (P2C) that utilizes incomplete point cl - 视觉预训练是否有助于端到端推理?
本文旨在探究是否可以通过视觉预训练使通用神经网络实现视觉推理的端到端学习。我们提出了一个简单的自监督框架,并在两个视觉推理基准上进行了评估。结果表明预训练对于实现复合泛化是必要的,并且我们提出的框架明显优于传统的监督预训练。
- ARTIC3D:从嘈杂的网络图片集中学习鲁棒的关节式 3D 模型
ARTIC3D 是一种自监督框架,通过 2D 扩散先后提取骨架表面表示和指导 3D 优化,估算高保真度的图形和纹理,且可产生更真实的动画效果。
- 使用 LoReTTa 训练传递性和交换性多模态 Transformer
LoReTTa 是一种自我监督框架,它通过自动学习不同模态之间的可转移和可交换特性,使得在具有三个匹配模态的情况下进行数据集的组合和整合变得简单。该方法不同于传统预训练方法,并在生成任务的复杂度和新的模态组合分类任务中展示出良好的性能。
- FSNet: 为自主驾驶重新设计自监督单目深度估计以进行全尺度深度预测
研究提出了一种综合的自我监督框架,利用惯性测量得到的帧间姿势,在自动驾驶场景中准确预测深度,特别是引入了一种全尺度深度预测网络 FSNet,对现有自我监督模型进行了四项重要改进,证明了其潜力。