- 物理知情模型与混合规划用于高效的 Dyna 风格增强学习
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学 - 多模态图基准
多模态图学习基准 (MM-GRAPH) 是首个综合多模态图基准,涵盖文本和视觉信息,旨在促进多模态图学习研究并推动更先进、更稳健的图学习算法的发展。
- CVPRPUDD:面向鲁棒的多模态原型深度伪造检测
提出了一种基于相似性的检测系统,通过将输入数据与已知原型进行比较,分析相似度降低,来进行视频分类,识别潜在的深度伪造图像或之前未见过的类别,PUDD 在 Celeb-DF 上达到 95.1% 的准确率,表现优于最先进的深度伪造图像检测方法, - 商业中 LLM 益处的实际检验
大型语言模型(LLMs)在理解和生成任务方面取得了显著的表现,但其在偏见、上下文理解和对提示的敏感性方面存在限制,因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验,深入研究了 LLMs 在 - 基于胶囊网络的层次化物体中心学习
该论文研究了 CapsNets(胶囊网络)的吸引人之处,并聚焦于解锁其全部潜能的三个关键问题:路由算法的有效性、提取更有效的第一层胶囊、以及胶囊网络中的部分关系学习。此外,还展示了 CapsNets 在实际应用中的潜力,包括无人机的自主定位 - 学习优化:连续和混合整数优化的教程
学习优化(L2O)介于传统优化和机器学习的交叉点,利用机器学习的能力增强传统优化技术,通过考虑实际应用的前提和优化问题的结构,提供了一个综合指南,加速优化算法并适应更加真实的应用。
- AdaWaveNet: 自适应小波网络用于时间序列分析
此研究论文介绍了自适应小波网络(AdaWaveNet),它是一种新颖的方法,采用自适应小波变换对非平稳时间序列数据进行多尺度分析。AdaWaveNet 设计了基于 lifting scheme 的小波分解和构造机制,提供了增强的灵活性和鲁棒 - ICML通过分布扰动分析进行稳定性评估
通过分析数据集的分布扰动来评估学习模型的稳定性,利用最优输运法来量化该扰动,从而解决现实场景中常见的数据损坏和子集群转移两种分布转移类型问题,同时提供了可行的凸优化问题和计算方法以实现实际应用的价值。
- SEED-X:统一多粒度理解与生成的多模态模型
模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型 SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生 - 面部表情识别的动态分辨率指导
本文介绍了一种名为动态分辨率引导面部表情识别(DRGFER)的实用方法,该方法能够在分辨率不同的图像中有效地识别面部表情,而不会影响面部表情识别模型的准确性。该方法包括两个主要组成部分:分辨率识别网络(RRN)和多分辨率适应面部表情识别网络 - 人像风格化框架中的肤色感知与裸露识别
该研究提出了一种肖像风格化框架,结合了一个裸露内容识别模块(NCIM)和一个肤色感知肖像风格化模块(STAPSM),成功地解决了肖像风格化中的输入内容过滤和肤色特征表达的挑战,满足了实际应用的关键需求。
- 文本到图像扩散模型中的大规模概念编辑
我们提出了一种名为 EMCID 的两阶段方法,用于在大规模实际场景中同时解决文本到图像扩散模型生成过时、受版权限制、错误和带有偏见的内容的问题。通过对每个个体概念进行双自对齐损失和扩散噪声预测损失的记忆优化,第一阶段实现了内存优化;第二阶段 - Vid2Robot: 基于跨引注意力变形器的端到端视频条件策略学习
通过观察人类行为并将其翻译成可执行的动作,本研究介绍了一种基于视频学习的机器人框架 Vid2Robot,它通过训练机器人模型利用人类视频和机器人轨迹数据集进行任务执行。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态中,并生成能 - DeepSeek-VL: 实现真实世界的视觉 - 语言理解
DeepSeek-VL 是一个开源的视觉 - 语言模型,设计用于实际的视觉和语言理解应用,通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。
- 鹰:真实互动的伦理数据集
本研究通过从 ChatGPT 与用户之间的真实交互中提取出具有社会偏见、毒性和不道德问题的 Eagle 数据集,实验结果表明 Eagle 捕捉到了现有用于评估和缓解这些道德挑战的数据集所没有覆盖到的互补方面。
- 通过深度强化学习实现现实世界流体引导刚体控制
近期增加在强化学习实际应用方面的研究,依赖于能够在规模上准确模拟系统。然而,液体动力学系统等领域展示了复杂的动态现象,难以以高积分速率进行模拟,限制了现代深度强化学习算法在昂贵或安全关键硬件上的直接应用。在本研究中,我们引入了 “Box o - 基于基础模型的真实世界机器人应用:一综述
通过对基础模型在真实世界机器人应用中替换现有组件的主要影响进行概述,本文总结了基础模型在机器人领域中输入输出关系的观点,以及它们在感知、运动规划和控制方面的作用,并讨论了未来挑战和对实际机器人应用的影响。
- 迈向绿色和人类智能:当代少样学习方法的综合调查
深度学习在数据资源和计算资源需求上的局限性使得其在许多数据受限的实际应用中不实用,而 Few-Shot Learning(FSL)旨在通过使其能够快速适应新学习任务来解决这些限制,并在最近几年取得了显著的增长。本综述提供了对该领域最新进展的 - 大型语言模型的硬件加速器调查
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
- 自动驾驶中的鲁棒性感知 3D 物体检测:综述与展望
在现代自动驾驶领域中,感知系统是不可或缺的,它可以准确评估周围环境的状态,从而实现知情预测和规划。本研究重点研究了感知系统的鲁棒性、准确性和延迟性在实际情况下的评估,通过对基于摄像头、LiDAR 和多模态的 3D 物体检测算法进行全面评估,