- BUFF:基于提升决策树的超快速流匹配
基于树模型优于深度学习模型在处理表格数据任务方面的表现,我们采用条件流匹配生成模型并使用不同技术融合了 Gradient Boosted Trees 的使用,通过在多个公共数据集上进行多个分析任务的评估,展示了大多数高级仿真任务的训练和推理 - 优化扩散模型中的采样计划对齐步骤
通过对扩散模型的采样调度进行优化,我们提出了一种通用的、有原则的方法,称为 “调整您的步骤”,以实现高质量输出,并观察到我们优化的调度在几乎所有实验中优于以前手工制作的调度。
- 保结构扩散模型的量子态生成
针对量子系统状态的生成建模问题,本文提出了一种基于去噪扩散模型的方法,其关键创新点在于考虑了物理性质中的量子状态约束,通过 Mirror Diffusion Model 和设计出的镜像映射实现了严格保持结构的生成,实验验证了无条件生成和通过 - MVD-Fusion: 单视角 3D 通过深度一致的多视角生成
通过对多视角一致的 RGB-D 图像进行生成建模,我们提出了 MVD-Fusion:一种用于通过单视角推理 3D 的方法。
- 生成可信任的模型无关反事实解释的对抗随机森林
利用对抗式随机森林(ARFs)的生成建模技术,本文以模型独立的方式高效生成可信的反事实解释,克服了现有方法的局限性,包括易于训练、计算高效、自然处理连续和分类数据以及方便集成额外的期望,如稀疏性。
- 高斯立方:使用最优运输结构化高斯喷溅以进行三维生成建模
推导的 GaussianCube 是一种结构化 GS 表征,通过优化输运将高斯函数排列成预定义的体素网格,实现了高质量的拟合结果和生成建模。
- ACL语言修正流:通过概率流推进扩散语言生成
Language Rectified Flow 是一种基于标准概率流模型改进的方法,通过学习(神经)常微分方程模型在源分布和目标分布之间进行转换,提供了生成建模和领域转换的统一有效解决方案。实验证明该方法在多个 NLP 任务中能够持续优于其 - 基于空间群信息的晶体材料生成变压器
CrystalFormer 是一种基于 Transformer 的自回归模型,专门用于由空间群控制的晶体材料生成,其利用空间群对晶体空间进行了显著简化,通过直接预测单元胞中对称不等价原子的种类和位置来生成晶体,实验结果显示 CrystalF - 具有随机插值和 Föllmer 过程的概率预测
我们提出了一个基于生成模型的动力系统概率预测框架,将预测问题描述为从当前状态给定的未来系统状态的条件分布中进行采样,并证明了该框架在复杂的高维预测问题上的实用性。
- 最佳流匹配:一步学习直线轨迹
发展流匹配方法用于生成模型,追求流的直线轨迹,实现最优输运位移;文章提出一种新颖的最优流匹配方法,在一步流匹配中恢复二次成本下的直线输运位移。
- ICLR面向统一的多模式个性化:基于大型视觉语言模型的生成式推荐及其延伸
UniMP 是一种统一的多模式个性化系统的范式,通过使用多模态数据并消除任务和模态特定定制的复杂性,充分发挥了基础生成模型的灵活性和效力,以实现广泛的个性化需求,包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。
- RFWave:多频带整流流量用于音频波形重建
RFWave 是一种新颖的多频带矫正流方法,通过 Mel 频谱图重构高保真音频波形,具有 10 个采样步骤,可实现异常的重构质量和卓越的计算效率,速度快于实时 90 倍。
- 面向结构化和非结构化数据的模块化端到端多模态学习方法
多模态学习是一个快速发展的研究领域,它在人工智能中的多任务处理和生成建模方面产生了革命性的影响。本文提出了一种名为 MAGNUM 的模块化端到端多模态学习方法,能够原生地处理结构化和非结构化数据,且灵活性足够高以适应任何专门的单模态模块来从 - 潜在行为生成
通过将连续行为离散化为层次化矢量量化模块,VQ-BeT 是一种能够处理多模态行为预测、条件生成和部分观测的行为生成通用模型,其在七个环境中取得了比 BeT 和 Diffusion Policies 等现有模型更好的效果,并且加速了推断速度 - 人形机器人运动的下一个令牌预测
我们将真实世界中的人形控制视为下一个令牌预测问题,类似于预测语言中的下一个单词。我们的模型是一个因果变换器,通过自回归预测感觉运动轨迹来进行训练。为了考虑数据的多模态性,我们以一种模态对齐的方式进行预测,并且对于每个输入令牌,从相同的模态中 - 几何感知神经网络
提出了几何信息神经网络(GINN)的概念,该网络涵盖了在几何约束下的学习、神经场作为合适的表示以及在几何任务中遇到的欠定系统的多样化解决方案生成。 GINN 公式不需要训练数据,并且可以被认为是完全由约束驱动的生成建模。 将显式多样性损失添 - GenAD: 生成式端到端自动驾驶
提出了一个新的端到端自动驾驶范式,自动驾驶的关键在于预测自车和周围环境随着时间的演变,通过生成建模问题通过 GenAD 框架,模型了自动驾驶问题,并在广泛使用的 nuScenes 基准测试中取得了高效的最新成果。
- 3D 扩散行为者:带有 3D 场景表示的策略扩散
我们结合扩散策略和 3D 场景表示来实现机器人操纵,提出了一种名为 3D Diffuser Actor 的神经策略体系结构,它在给定语言指令的情况下构建视觉场景的 3D 表示,并在此基础上迭代性地对机器人的末端执行器进行 3D 旋转和平移噪 - 基于惩罚性最优传递网络的数据表生成建模
通过提供理论和实证的证据,我们的研究提出了一种名为 POTNet 的生成深度神经网络,它基于一个新颖、稳健、可解释的边际惩罚 Wasserstein 损失函数(MPW)来有效地建模包含类别和连续特征的表格数据,并能在子特征集合上进行条件建模 - 恢复生成模型的预 Fine-Tuning 权重
通过使用少量低秩(LoRA)微调模型,我们提出了一种名为 Spectral DeTuning 的方法,能够恢复出预微调模型的权重,利用这一新的漏洞攻击大规模模型。