- 高效深度多智能体强化学习的表示学习
通过辅助学习目标,MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率,并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。
- 行动条件自预测强化学习的统一框架
自预测学习是增强学习代理的关键挑战之一,本文通过分析一个考虑行动条件的自预测目标(BYOL-AC),利用 ODE 框架描述其收敛性质,并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别,展示了两个表示之间的差异和联系。在线性函 - 无监督对比分析:基于条件扩散模型的显著模式检测
通过使用自我监督对比编码器学习仅从输入图像中提取共同模式的潜在表示,利用数据增强技术近似目标模式的分布,并利用高级生成方法的条件生成过程,生成仅包含共同模式的真实(健康)版本的输入图像,从而提高生成图像质量和图像分类准确性。
- 非监督式表征学习的扩散桥自编码器
通过引入 Diffusion Bridge AuteEncoders(DBAE),我们解决了传统扩散模型中信息拆分问题,并实现了更好的重构模型和生成模型,提高了下游推断质量、重构质量和解耦性能。
- 基于数据的沉积弯曲纤维的低维模型
通过使用机器学习,本研究描述了一种数据驱动技术来创建高保真度的低维模型,用于灵活纤维动力学的沉积过程预测。
- 自动驾驶场景中基于语言增强的潜在表示的异常检测
利用多模态模型 CLIP 编码的图像和文本表示的余弦相似度作为一种新的表示,以改善用于视觉异常检测的潜在编码的透明性和可控性。通过与仅能产生用户无意义的潜在表示的现有预训练编码器进行比较,我们的实验表明,基于语言的潜在表示比传统视觉编码器的 - 功能融合网络
我们提出了一个模型,将对象、动作和效果统一为单一的潜在表示,在共享的感知空间中建立了被称为行动潜力空间的各种行为潜能。使用这个行动潜力空间,我们的系统能够在给定动作和对象时生成效果轨迹,并且能够在给定效果轨迹和对象时生成动作轨迹。
- 揭示 LLMs:时间知识图中潜在表示的演变
通过对 Large Language Models(LLMs)的实证分析,本文提出了一种新的端到端框架,能够解码 LLMs 中隐藏的事实知识,并使用时间性知识图表达其在各层中的演化,以实现对 LLMs 的机理解释。通过局部和全局的解释性分析 - WordRobe: 文本指导的纹理 3D 服装生成
采用 “WordRobe” 框架,通过学习 3D 服装的潜在表示和对齐 CLIP 嵌入空间,实现了高质量纹理的基于文本的 3D 服装生成和编辑。通过控制网络实现全景一致纹理合成,生成时间大大缩短。WordRobe 生成的 3D 服装网格可以 - GetMesh: 高质量网格生成与操作的可控模型
我们提出了一种高度可控的生成模型 GetMesh,用于不同类别的网格生成和操作,通过以可变数量的点作为潜在表征,并将它们重新组织为三面位表示,GetMesh 生成具有丰富和锐利细节的网格,优于单一类别和多类别对应物,还可以通过调整潜在点的数 - 探索预训练的文本到视频传播模型用于视频对象分割
探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示,在视频理解任务中的应用,通过验证经典的参考视频对象分割 (R-VOS) 任务的假设,介绍了一个名为 “VD-IT” 的新框架,结合了预训练的 T2V 模型,利用文本信息作为条 - 清晰时刻:借助矩池化简化机器学习的潜在空间
许多机器学习应用涉及到学习数据的潜在表示,本研究提出了 “Moment Pooling” 方法,通过扩展 Deep Sets 网络中的求和操作为任意多元矩操作,显著降低了这些网络的潜在空间维度,同时保持甚至提高了性能,在胶子物理任务中证明了 - 多模态 VAEs 中的统一多样性:改进的表示学习
用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力,如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束,提出了一种新的专家混合先验方法,软指导每个模态的潜编码向共享的聚合后验靠近,从而得到一个更好的潜编码表示,并提高了对缺失 - 多区域马尔可夫高斯过程:一种有效方法用于发现多个脑区之间的方向性通信
该研究将高斯过程(GP)和线性动力系统(LDS)两种统计模型融合,并创建了一个多区域马尔可夫高斯过程(MRM-GP)模型,通过显式地建模频率和相位滞后,实现了在神经记录的潜在空间中频率和相位时延的探索。该模型在时间点上具有线性推理成本,提供 - 探索压缩图像表示作为感知代理:一项研究
我们提出了一种端到端学习的图像压缩编解码器,其中分析变换与目标分类任务同时训练。该研究证实,压缩的潜在表示能够以与定制的基于深度神经网络的质量指标相媲美的准确性预测人的感知距离判断。我们进一步研究了各种神经编码器,并展示了将分析变换作为超出 - ICLR基于 3D 神经场的深度学习
本文提出了 nf2vec 框架,用于在单次推断中为输入的神经场生成紧凑的潜在表示,展示了将其嵌入到深度学习流程中并成功解决各种任务的有效性。
- 基于度的图神经网络节点分层
通过基于图节点的分层,将图神经网络 (GNNs) 中的节点分为低度和高度两组,并通过对每个组中的节点独立学习权重矩阵的方式进行简单修改,从而提高性能。
- 用 Wasserstein 自编码器进行并发密度估计:一些统计学见解
通过神经网络引发的转换,我们从统计的角度提出了对 WAEs 机制的理论理解,并在存在敌对情况下分析了这些随机误差的传播,探索了重建分布的大样本特性和 WAE 模型的弹性。
- 薛定谔桥在文本转语音合成上胜过扩散模型
在这项研究中,我们提出了一种新的文本到语音系统,Bridge-TTS,通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验,以实现对目标的强结构信息的首次替代。
- 时间序列的自学习特征提取
时间序列上的自我监督学习能够使得类似于自然语言处理和计算机视觉领域中最近释放的潜力发挥出来。通过使用基于 data2vec 自蒸馏框架的一个概念上简单而强大的非对比度方法,我们的方法展示了在分类和预测等下游任务上与 UCR、UEA 和 ET