- 拥抱多样性:超过每个类别一个向量的可解释零 - shot 分类
用推理属性在不需要重新训练的零 - shot 分类环境下对类别内的多样性进行编码和计算,提高零 - shot 分类的准确性、可解释性,以及适应性,从而实现透明的 AI 系统。
- RadGenome-Chest CT:用于胸部 CT 分析的基于视觉和语言的数据集
通过开源医学图像数据集、基于最新的通用分割和大型语言模型,我们介绍了 RadGenome-Chest CT,这是一个全面的、大规模的、基于 CT-RATE 的区域导向的 3D 胸部 CT 解读数据集,推动了多模态医学基础模型的发展。
- CVPR第三届单目深度估计挑战
本研究讨论了第三届单目深度估计挑战赛(MDEC)的结果,重点关注挑战赛对具有复杂自然和室内场景的 SYNS-Patches 数据集的零样本泛化。挑战赛接收了总共 19 份提交报告,其中有 10 份报告详细描述了他们的方法,突出了在方法核心使 - 正则化泊松非负矩阵分解的高效算法
我们研究了正则化泊松非负矩阵分解(NMF)问题,包括利普希茨和相对平滑函数以及线性约束的各种正则化项。我们利用块递进上界最小化(BSUM)来克服主要损失项为 KL 散度的挑战,构建适当的上界函数,并展示如何引入线性约束进入该问题中。这导致了 - 因果启发式正则化实现域通用表示
在给定描述不同领域 / 分布共享的数据生成过程的因果图的基础上,通过强制执行足够的图推断条件独立性可以确定领域通用(非虚假的)特征表示。针对标准的输入 - 输出预测设置,我们将文献中考虑的图集合分类为两个不同的组:(i)那些在训练领域中的经 - 多尺度 HSV 颜色特征嵌入用于高保真近红外到 RGB 光谱转换
通过将过程分解为 NIR 纹理维护、粗糙几何重建和 RGB 颜色预测,我们提出了一种多尺度 HSV 颜色特征嵌入网络(MCFNet),通过一系列逐渐增加分辨率的方法系统地解决光谱转换问题,以在规模协调的方式下逐步丰富图像的颜色和纹理保真度。
- 最优和有界次优的任意角度多智能体路径规划
多智能体路径规划中的任意角路径规划问题,利用连续冲突搜索算法和安全区间路径规划算法的最优算法及其可行解空间分割和多约束技术,能解决比传统组合更多的问题。
- 逆散度上的无偏估计方程及其条件
本文研究了由互补函数定义的 Bregman 距离,即逆向距离。探讨了通过单调递增函数和逆向距离定义的损失函数下,使估计方程无偏的统计模型和函数 f 的条件。具体而言,我们通过逆高斯型和广义逆高斯型分布的混合模型表明,对于每个模型,函数 f - 基于生成模型的强化学习与紧凑支持集
使用强化学习作为对基础模型的控制的框架,通过生成小而专注的合成支持集来增强神经网络模型在真实数据分类任务上的性能,而无需额外的标记或数据成本。
- MuseumMaker: 持续自定义样式,避免灾难性遗忘
提出了 MuseumMaker 方法,使用预训练的大型文本到图像(T2I)模型,通过遵循一系列定制风格的方式不断地合成图像,并作为一个博物馆逐渐积累这些创造性的艺术作品。MuseumMaker 能同时捕捉新风格的细微差别,并保持已学习风格的 - 基于自然图像统计特征的拼接图像检测算法研究
基于自然图像的统计特征,本文介绍了一种用于提高图像篡改检测精确度和效率的新的拼接图像检测算法,该算法通过整合先进的统计分析技术和机器学习方法构建了一个检测框架,并在多个公共数据集上进行了验证,显示出在检测拼接边缘和定位篡改区域方面具有高准确 - V2A-Mark: 多功能深度视听水印技术用于操作定位和版权保护
通过将不可见的视听定位水印和版权水印嵌入原始视频帧和音频中,实现精确的操作定位和版权保护,解决当前视频篡改法医学中的限制,包括泛化能力差、功能单一和单模态聚焦等问题。同时,我们还设计了一个时间对齐和融合模块以及退化提示学习来提高定位精度和解 - 模糊测试与 LLMs 的结合:挑战与机遇
通过对顶级会议上最新的论文进行回顾,我们确定了大型语言模型(LLMs)在模糊测试中面临的五个主要挑战,并提出了一些可行的建议来改进 LLM 在模糊测试中的应用,并进行了对数据库管理系统的模糊测试的初步评估,结果表明我们的建议有效地解决了所确 - SEED-Bench-2-Plus:基于多模态大型语言模型的文本丰富视觉理解基准测试
我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰 - 层级跳过:在推断中实现早期退出和自我推测解码
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。
- T-Explainer: 基於梯度的模型无关解释性框架
可解释人工智能(Explainable Artificial Intelligence)通过提供准确、一致且稳定的解释,解决机器学习中黑盒模型的透明度问题,其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。
- 学习击败 ByteRL:可收集卡牌游戏智能体的可利用性
通过对 ByteRL 在《法典传说》和《炉石传说》中的表现进行初步分析,我们发现这种技术在这类游戏中的可利用性很高。
- 多层关联聚类
我们在这篇论文中建立了多层相关聚类,这是对相关聚类(Bansal 等人,FOCS'02)在多层设置中的一种新的概括。我们首先设计了一个基于知名区域生长技术的 O (Llogn) 逼近算法(其中 L 是层数),然后研究了带有概率约束的一个重要 - 交叉传感器不规则采样 Sentinel-2 时间序列的超分辨率
通过使用多张卫星图像,本研究提出了一种针对 Sentinel-2 时间序列的多图像超分辨率重建算法,并展示了多图像对超分辨率性能的显著改善,同时探讨了光谱保真度和感知质量之间的权衡关系。
- 利用热带珊瑚礁、鸟类和无关声音进行优秀的海洋生物声学转移学习
机器学习对于生态评估中的被动声学监测具有革命性的潜力,通过预训练网络可以降低高昂的注释和计算成本,本研究在珊瑚礁生物声学领域确定了最佳的预训练策略,通过交叉领域混合预训练,实现了用于海洋被动声学监测数据的自动化分析。