- 利用大规模视觉模型增强机器人抓取的简要调查
通过大规模视觉预训练探索提高机器人抓握性能的潜在益处,并对视觉预训练在机器人操纵中的关键挑战和未来研究方向进行了初步文献综述。
- 无监督文档布局分析
通过基于视觉的方法,本研究利用未标记的网络文档图像生成简单的对象掩码,通过无监督训练迭代持续改进该模型的性能,从而显著提高文档布局分析的准确性和效率。
- 关于共现、位置信息和噪音结构的作用:从无结构数据的训练中产生上下文学习
通过建模共现信息使用经典语言模型如连续词袋模型,我们理论上证明并实证验证了不监督训练对于上下文学习的产生方式,同时我们提出了一些 ICL 失败的情况并给出了理论解释。
- SWAG: 使用外观条件高斯模型对野外图像进行粘贴
通过将外观建模与无监督训练的瞬态高斯处理相结合,有效地处理来自非结构化野外图像集合的三维场景表示方法,在多样的照片场景和户外地标的多次获取实验中,实现了改进效率和技术水平。
- Genie: 生成式交互环境
Genie 是第一个通过无监督方式从无标签互联网视频中训练得到的生成交互式环境,它可以根据文本、合成图像、照片甚至草图生成无限多种可控行为的虚拟世界。拥有 11B 个参数的 Genie 可以被视为基础世界模型,它由时空视频分词器、自回归动力 - 通过分层循环切换状态模型发现同步时间序列中的群体动力学
我们提出了一种新的层次切换状态模型,可以以无监督方式进行训练,同时解释系统层面和个体层面的动态,通过观测到的链条在实体和系统层面之间的反馈来提高灵活性,通过实验验证了模型在预测未来个体行为方面的优越性,并能解释群体动态。
- 时间序列异常检测中的弱增强变分自动编码器
结合深度变分自编码器(VAEs)和自监督学习(SSL)的新型生成框架,解决了数据稀缺导致的潜在空洞问题,提高了基于重建的时序异常检测方法的稳健性。
- 基于交叉注意力引导的多视角无监督图像生成
利用预训练的无监督自监督视觉变换器(DINOv2)对单类别数据集进行聚类,从而识别物体姿势,并带有训练在姿势标签上的姿势条件扩散模型,同时在推断时利用跨帧注意力以确保视角的一致性,进一步通过强化注意力指导提高,从而在实际图像上实现了优越于先 - 将文本到图像扩散模型与奖励反向传播对齐
AlignProp 是一种用于将扩散模型与下游奖励函数对齐的方法,通过反向传播奖励梯度穿越去噪过程,它在较少的训练步骤中实现了更高的奖励,且概念上更简单,因此对于优化不同 iable reward functions 感兴趣的扩散模型来说是 - 通过循环训练实现更好的医学图像配准
通过训练架构 Optron,将优化的深度学习模型与自动化训练过程相结合,用于医学图像配准,通过无监督训练的伪标签优化预测结果,提高模型性能和收敛速度,实现了在 IXI 数据集上的最新技术进展。
- 基于打分的生成模型的多元异常检测
我们提出了一种基于评分的生成模型的多变量时间序列异常检测器,称为 MadSGM,它考虑了最广泛的异常度量因素:基于重建、基于密度和基于梯度的异常度量。通过在五个真实世界基准数据集上的实验证明,MadSGM 实现了最稳健和准确的预测。
- 扩散,关注与分割:利用稳定扩散进行无监督零样本分割
利用稳定扩散模型中的自注意力层以及基于测量注意力图之间的 KL 散度的简单而有效的迭代合并过程,我们提出了一种无需训练或语言依赖性,能够从任何图像中提取质量分割的方法。在 COCO-Stuff-27 上,我们的方法在像素准确率和平均 IoU - 基于无监督深度学习的波段融合技术与频谱空间保真度的联合增强
最近几年,深度学习在多分辨率图像泛光提升中起着主导作用。本文提出了一种基于深度学习的全分辨率训练框架,通过定义适当的损失函数和训练方法,充分发挥了这种方法的潜力,提供了先进的性能。实验证明,该方法在数值结果和视觉输出方面与现有技术相比具有显 - 对抗引导下的人像抠图
本研究利用预训练的转换器模型(StyleMatte)为基于 StyleGAN3 的网络(StyleMatteGAN)提供图像 - 掩码对,这个网络可用于无监督训练并生成高分辨率的带透明通道的肖像,适用于各种图像合成任务。
- MM基于 ANN 的无监督均衡器及其可训练 FPGA 实现
本文提出了一种基于人工神经网络的无监督均衡器及其可训练的 FPGA 实现,通过自适应的方法,该算法能够适应不同的信道条件,并取得了 Gbit/s 级别的吞吐量,超越了高性能 GPU 的表现,是一个实用通讯系统的第一步。
- 带偏好的受控多样性:朝着学习多样化的技能集合
本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。
- ICLR学习在没有三维监督下估计单视角体积流动运动
本文介绍了一种训练深度神经网络,从单目输入的视频中联合推断流体中移动的三维流和体积密度的方法,该方法不需要任何 3D 地面真实数据用于训练,并且可以在没有体积监督的情况下,利用实际世界的捕捉设置观察来训练模型。
- 语法和领域感知的无监督程序翻译模型
本文提出了一种语法和领域感知的程序翻译模型 SDA-Trans,利用语法结构和领域知识来增强跨语言转移能力,采用较小规模的无监督语料库进行训练,实验结果表明 SDA-Trans 在 Python、Java 和 C++ 之间的函数翻译任务上表 - InPars-Light: 高效排序器的成本有效的无监督训练
通过对 InPars 配方进行可重复性研究,我们开发了一种简单但有效的修改版 InPars,称为 InPars-light,它仅使用免费的语言模型 BLOOM 和 7x-100x 较小的排序模型,是第一个真正具有成本效益的基于提示的无监督配 - 图增强聚类网络
该研究提出了一种新颖的图增强聚类网络,通过自适应增强初始图的方法,能够实现更好的聚类性能,实验结果表明该方法在六个基准数据集上的表现优于现有的几种先进方法。