- DragText:点云图像编辑中的文本嵌入思考
通过研究我们发现,文本嵌入在图像编辑过程中起着重要的作用,特别是在维护内容一致性和实现所期望的操作方面。为了应用这些发现,我们提出了 DragText 方法,该方法能够优化文本嵌入以与修改后的图像嵌入配对,并通过对文本优化过程进行规范化来保 - MMRefMask3D: 基于语言引导的 3D 参考分割的 Transformer
3D referring segmentation task that aims to segment objects in point cloud scenes using natural language expressions is - 基于对数索勒维不等式的期望最大化算法快速收敛
利用最近发展的构建 Wasserstein 空间梯度流的工具,我们将常用的分析技术应用于 Euclidean 空间上交替最小化算法的理解,通过其作为 Neal 和 Hinton(1998)所提出的欧几里得空间和概率分布空间上坐标逐一最小化的 - 委托代理强化学习
使用契约来激励自私代理实现委派任务的潜力。通过以 MDP 模型化委派任务并研究随机博弈过程,我们提出了一种基于学习的算法来优化委托人的契约,并在多代理环境中扩展了该方法,以解决序列社会困境并最小干预代理奖励。
- VGGHeads:一个用于 3D 人脑头部的大规模合成数据集
利用 VGGHeads 合成数据集生成的大规模合成数据集,介绍了一个新的模型架构,能够从单张图像中同时进行头部检测和头部网格重建,实现了在真实图像上的强大性能。
- 5G RAN 中的韧性优化的多智能体深度强化学习
该论文利用多智能体深度强化学习,全局优化密集多小区网络的韧性,通过动态调整天线和重新配置发送功率,增加覆盖范围和服务可用性,从而最大程度减少邻近小区网络的故障影响,提高用户吞吐量的平均服务可用性达到了 50-60% 的增加,最佳情况下覆盖可 - 巴贝尔树:显式结构的改进表示学习
Banyan 是一个改进的模型,通过引入显式结构来学习语义表示,结合灵感来自 Griffin 的改进的传递消息方案,Banyan 在学习表示方面表现出色,避免了虚假负例,且在这种显式结构模型中极大地提高了内存效率。
- 链接预测中的数值文字:模型和数据集的关键审查
我们提出了一种评估包含数字文字的 LP 模型的方法,并通过新的合成数据集和数据集切割策略来研究现有数据集的潜在问题,发现许多模型未充分利用文字信息并可能依赖额外参数来提高性能。我们的研究强调了发布新模型和数据集时需要进行更广泛的评估。
- TiCoSS: 在联合学习框架下加强语义分割和立体匹配之间的耦合
本文提出了一种紧密耦合的门控特征融合策略、分层深度监督策略和耦合紧密损失函数,将语义分割和立体匹配任务结合在一起并取得了优秀的性能表现,相比之前的方法在平均交并比上提高了 9% 以上。
- EEG-SSM:基于状态空间模型的痴呆症检测
使用 EEG 数据的基于状态空间模型的 EEG-SSM,以更精确和经济的方式改进了痴呆筛查工具,实现了对健康对照组(HC)、前颞叶痴呆(FTD)和阿尔茨海默病(AD)组的 91.0% 准确率分类,优于现有模型。
- HANNA: 用于一致活动系数预测的硬约束神经网络
我们提出了第一个硬约束神经网络 (HANNA) 来预测活度系数,这是基于科学和工程中许多应用的热力学混合物性质的基础。与传统神经网络不同,我们的模型严格遵守所有热力学一致性准则,通过利用深度集神经网络,HANNA 在各组分的排列置换下保持对 - 马尔可夫数据上的变压器:恒定深度即可
通过对马尔可夫过程产生的数据进行观察,本研究发现在训练足够长的情况下,具有固定深度和每层一个头的 transformer 能够在来自 k 阶马尔可夫源的序列上实现低测试损失,其中低测试损失是通过 transformer 表示和学习上下文条件 - 关于利用基础模型再度探索大气科学的机遇:以案例研究为例
基于 GPT-4o 多模态基础模型,本研究探索了在大气科学中各种任务的性能,并评估了其对气候数据处理、物理诊断、预测和预测,以及适应和缓解等主要类别的表现。
- KiVA:用于测试大型多模态模型的儿童启发式视觉类比
通过与人类成年人和儿童进行对比,本文研究了大型多模态模型(LMMs)中的视觉类比推理。通过构建一个全新的基准测试,评估 LMMs 在视觉类比推理上的性能,并将其与儿童和成年人进行比较。结果发现,尽管像 GPT-4V、LLaVA-1.5 和 - Kiki 的外观是什么?视觉语言模型中语音和视觉形状之间的跨模态关联
人类在将某些新词匹配到视觉形状时具有明显的跨模态偏好。该研究以人类实验为基础,探索并比较四种视觉 - 语言模型在人类跨模态偏好(bouba-kiki 效应)上的编码情况。虽然没有找到确凿的证据支持这一效应,但结果可能取决于模型的特征,如架构 - 通过世界动态建模提升智能体学习能力
通过自动化动态学习框架 DiVE 指导的大型语言模型在 Crafter 环境中能够做出决策,实现与人类玩家相当的奖励。
- MapTune: 强化学习指导的 ASIC 技术映射中的进阶库优化
使用强化学习方法的 MapTune 框架通过设计特定选择的方式来改善电路映射过程,减少搜索空间并提高映射质量,实验证明其在广泛的电路设计、技术库和映射器中都能实现更高的映射准确性。
- 量子随机平滑在时间序列分析中的二次优势
通过整合格罗弗算法,我们的研究分析了量子随机平滑以及如何匹配数据编码和扰动建模方法,以实现有意义的鲁棒性证明。在时间序列分类任务中展示了所提出框架的有效性,特别是在样本数量大的情况下恢复了二次样本减少的优势。这可能使量子计算机能够高效地将随 - 探索自我监督学习中数据集多样性对于外科计算机视觉的影响
近十年来,计算机视觉在微创手术中的应用迅速增加。尽管如此,相比病理学和放射学等其他医学领域,手术计算机视觉的影响仍然有限,主要原因是代表性注释数据的稀缺性。本研究调查了自我监督学习(SSL)中数据集多样性在手术计算机视觉中的作用,并比较了特 - LLM 鲁棒性能的扩展趋势探究
语言模型的规模和训练数据的增加可以预测地提高其能力,然而,对抗提示对这些模型造成了威胁,本研究旨在探讨模型规模对语言模型的健壮性是否有影响。实证研究表明,更大规模的模型在对抗训练方面表现更好,但在缺乏明确防御措施时,模型规模对健壮性几乎没有