- R&B -- 节奏与脑:通过人脑活动解码音乐的跨主体研究
本研究通过功能性磁共振成像(fMRI)测量的人脑活动,探究音乐是否能够从中解码。利用最新的数据集和预训练的计算模型,研究人员构建了神经数据和音乐刺激的潜在表示之间的映射关系,通过功能和解剖对齐技术解决了 fMRI 数据中低时间分辨率和信噪比 - ICMLSiT: 对称不变 Transformer 在强化学习中的泛化
一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究,使用 Symmetry-Invariant Transformer (SiT) 扩展 Vision Transformer (ViT) 的方法在 MiniGrid、 - 可识别的可交换机制用于因果结构和表示学习
通过交替可识别机制(IEM)统一了交换性数据和因果结构学习的框架,提出了新的可识别性结果,并希望为因果表示学习的进一步研究铺平道路。
- UniZero: 通用高效规划与可扩展潜在世界模型
UniZero 是一种基于 Transformer 的新增方法,通过解耦潜在状态和历史信息,能够更好地捕捉长期依赖关系,提供了更加广泛和高效的潜在空间规划,相比 MuZero-style 算法在 Atari 100k 基准测试中表现更好,且 - 一幅图像对于重建与生成而言价值 32 个令牌
这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法(TiTok),其将图像令牌化为一维潜在序列,通过提供更紧凑的潜在表示形式,实现了比传统技术更高效和更有效的图像合成。
- CVPRDualAD: 动态和静态世界的端到端驾驶分解
自动驾驶的最新方法将整个驾驶任务的多个子任务整合成一个单一的流水线,可以通过在不同模块之间传递潜在表示进行端到端的训练。与之前依赖统一网格表示场景置信状态的方法相比,我们提出了专用的表示方法来解耦动态代理和静态场景元素,从而明确补偿相邻时间 - AROMA:利用局部神经场对潜在偏微分方程建模的空间结构保持
AROMA 是一种用于增强利用局部神经场建模偏微分方程(PDEs)的框架,其灵活的编码器 - 解码器架构可以从各种数据类型,包括非规则网格输入和点云,获取平滑的空间物理场的潜在表示,这种多样性消除了补丁操作的需要,并允许对不同的几何形状进行 - 从潜在到明晰:将知识图谱嵌入转化为可解释的结构
本论文介绍了一种针对知识图嵌入模型的事后可解释人工智能方法,通过直接解码嵌入在知识图中的潜在表示,识别相似嵌入实体的子图邻域内的不同结构,并将这些见解转化为人类可理解的符号规则和事实,在知识图嵌入模型的抽象表示和预测输出之间构建了桥梁,提供 - 人类和大型语言模型中潜在成分表示的主动运用
人脑与大型语言模型在句子内部表征方面具有相似的层级结构,通过删除单词来推断句子的潜在分层结构,并证明了这种结构在人脑和语言模型中都能出现。
- SEMF: 监督的期望最大化框架用于预测区间
该研究介绍了监督期望最大化框架(SEMF),这是一个多功能且不涉及具体模型的框架,可以为具有完整或缺失数据的数据集生成预测区间。SEMF 将经典的无监督学习中使用的期望最大化(EM)算法扩展到监督环境中,实现了提取不确定性估计的潜在表示。该 - 面向多任务多模态模型的视频生成视角
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的 - 金融表格数据的联邦异常检测
利用潜在表示学习和联邦学习技术改进了组织内未知异常的检测,通过仅共享模型参数而保护数据隐私,并在分布式环境中对金融和图像数据集进行了有效评估。
- 强化学习中的零样本拼接使用相对表示
利用最近发展的潜在表示的统一框架,我们能够将代理的组件组合而不是从头重新训练,为视觉强化学习提供了新的可能性。这样可以创建能够处理训练过程中从未见过的环境和任务组合的全新代理,为强化学习的使用带来了更易接触和灵活性的道路。
- 睡眠评估和睡眠个体分析的准确性提升的聚类和数据增强
近期,随着人们对健康的关注增加,新的方法使个人可以在家中监测睡眠。利用睡眠声音具有非侵入性和能够检测各种生理活动等优势,相较于智能手表等传统方法。本研究旨在构建一个基于机器学习的睡眠评估模型,提供基于证据的评估,例如由于入睡时频繁活动导致的 - 双曲 Delaunay 几何对齐
超协调机器学习是一个新兴领域,旨在使用分层结构表示数据。然而,目前缺乏用于评估和分析生成的超协调数据表示的工具。为此,我们提出了超协调德劳内几何对齐(HyperDGA)- 一种用于比较超协调空间中数据集的相似度得分。核心思想是计算连接给定集 - 研究科学连续领域重建中潜在表示的影响
学习稀疏采样下的连续可靠物理场表示的挑战及其影响是多学科的。本文提出了一种名为 MMGN(乘法和调制 Gabor 网络)的新模型,采用隐式神经网络。我们设计了额外的研究来增强对模型生成的潜在表示的理解,并采用了解释性方法。初步结果显示潜在表 - 生成医学分割
介绍了一种基于生成模型的图像分割方法 (GMS),使用预训练的 Variational Autoencoder (VAE) 生成精确的分割掩膜,提供了医学图像分割的新标准,具有良好的领域泛化能力。
- 掩蔽自编码器是 PDE 学习器
通过自我监督学习跨越偏微分方程组,遮蔽预训练可以提高神经求解器对未见过方程组的系数回归和时间步骤性能,从而成为跨大规模、无标签和异构数据集学习潜在物理规律的统一方法。
- 多级表示学习的两步自动网络犯罪密码词检测
通过多级潜在表示及自动编码器模型,我们提出了一种新的两步骤方法来检测犯罪行为中的网络犯罪编码词,并通过分析实验结果深入了解毒品和性犯罪。
- 面向立体图像压缩的内容感知遮罩图像建模变换器
该研究提出了一种名为 CAMSIC 的立体图像压缩框架,通过引入一种新颖的内容感知蒙版图像建模(MIM)技术,以独立地将每个图像转换为潜在表示,并采用强大的无解码器 Transformer 熵模型,来捕捉立体图像中的空间位移特征,从而实现了