- WildAvatar: Web 规模现实场景视频数据集用于 3D 头像创建
通过从 YouTube 中提取的 Web 规模野外人类化身创作数据集,我们评估了几种最先进的人类化身创作方法,突显了其在真实世界应用中未开发的挑战,并展示了规模化数据提供的人类化身创作方法的潜在推广能力。
- 重访大型视觉语言模型的后门攻击
使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在 - WavRx:一种疾病不可知、通用和隐私保护的语音健康诊断模型
提出了一种能够捕捉通用语音表示中呼吸与表达动态的语音健康诊断模型 WavRx,该模型在六个病理语音数据集上的领域内和领域间实验表明 WavRx 是一种新的最先进的健康诊断模型,并且在没有额外指导的情况下,WavRx 健康嵌入中包含的说话者身 - 实验研究的普遍适用性
本文提出了实验研究的数学形式化方法,并发展了一个可量化的泛化概念,旨在探索现有研究的泛化性,并估计实现新研究泛化性所需的实验数量,为此我们应用两个最近发表的基准测试来区分可泛化和不可泛化的结果,并发布了一个 Python 模块,可以用于其他 - 探索大型语言模型中的上下文学习决策边界
通过探究决策边界对上下文二分类的定性行为,我们发现现有的大型语言模型在简单的二分类任务中学习到的决策边界通常是不规则且非平滑的,本论文研究了影响这些决策边界的因素,并探讨了提高它们泛化能力的方法。通过评估各种方法,包括对大型语言模型的无需训 - GNOME:基于开放领域对话映射的生成式谈判系统
通过使用大型语言模型处理现存的人工标注的闭域数据集,本研究论文提出了一个自动化框架 GNOME,用于生成合成的开域对话进行谈判,从而提高了谈判系统的泛化能力,并减少了手动数据整理的昂贵性和主观性任务。通过实验设置,我们创建了一个基准,将在现 - AD-H:具有分层代理的自主驾驶
通过使用多模态大型语言模型(MLLMs)实现自动驾驶,连接高级指令和低级控制信号,形成多层次驱动系统 AD-H 提供了优秀的驾驶性能和普适性,充分发挥了 MLLM 在感知、推理和规划方面的潜力。
- CVPR走向具有普适性的多目标跟踪
多目标跟踪应具备高度的一般化能力,然而现有的跟踪器往往无法满足各种特征,而通过研究并将其抽象成一组跟踪场景属性,我们提出了一种点对点到实例关系的跟踪框架 GeneralTrack,能够在不需要平衡运动和外观的情况下,高效地进行多场景跟踪,从 - Unisolver: 基于偏微分方程的 Transformer 是通用的偏微分方程求解器
通过使用多样化的数据预训练的 Transformer 和多样的 PDE 条件,我们提出了一种能够解决广泛范围的 PDE 的通用 PDE 求解器 (Unisolver),在三个具有挑战性的大规模基准测试中获得了一致的最新成果,并具有令人印象深 - 利用流浪学习捕捉面部伪造的模糊异常
本研究提出了一种名为 “偏离学习” 的方法,通过混合高频组件的混合伪造语义(称为异常)进入真实的图像,从而消除了将模型偏向特定语义的偏见,提高了模型的泛化能力和检测公平性。
- 图机器学习的安全性:威胁与保障
探讨了提高图机器学习(Graph ML)安全性的三个关键方面:可靠性、泛化能力和保密性,并采用一种新的分类法分析了与这些方面相关的威胁,指导评估有效策略来保护图 ML 模型的安全性,为未来的研究奠定基础。
- 利用通用的力校正机器学习方法,在不同航线上预测船舶响应
这篇论文介绍了一种应用于船舶响应预测的混合机器学习方法,通过修正低保真运动方程中的力,提高了预测准确性和泛化能力。
- CVPR多频率多尺度注意力下的领域通用医学图像分割
为了解决深度学习方法在医学图像分割中常常忽视频率变异和多任务学习中信息丢失的问题,本研究提出了一种适用于医学图像分割的无模态域泛化网络 (MADGNet)。通过引入多频率和多尺度特征的 Multi-Frequency in Multi-Sc - 优化电子商务搜索:朝向可泛化和排名一致的预排序模型
在大型电子商务平台中,搜索系统通常由一系列模块组成,其中包括召回、预排序和排序阶段。我们提出了一种新颖的方法:一种具有一般化和秩次一致性的预排序模型(GRACE),通过引入多个二分类任务来预测产品是否在排名模型估计的前 k 个结果中,从而实 - 检测小子群中的重要治疗效果偏倚
通过设计统计检验以及估计观察性研究的最大偏差强度的下界,我们提出了一种超越平均治疗效应的实证研究比较方法,并在真实环境中验证了该方法的有效性,结果与现有医学知识相一致。
- 无穷假设集的拉什蒙比率
在给定分类问题和一系列分类器的情况下,Rashomon 比率度量了产生小于给定损失的分类器所占的比例。我们考虑了无限分类器组的更一般情况,证明了 Rashomon 比率的增加可以保证在从分类器组的随机子集中选择具有最佳经验准确性的分类器,从 - Ag2Manip:利用与代理人无关的视觉和行为表示学习新的操作技能
Autonomous robotic systems capable of learning manipulation tasks can be transformed through Agent-Agnostic representati - 草图 - 计划 - 泛化:语言引导机器人操作中归纳通用化空间概念的持续少样本学习
构建具有物理表征特性的神经符号方法,以逐渐学习概括性空间概念,用于创造塔的高度等任务,并在连续学习中实现在新概念上的归纳推理能力超越现有基准线。
- 一种通用的讽刺检测方法即将到来,当然!
对四个具有不同讽刺特征的讽刺数据集进行精调的讽刺检测模型的鲁棒性进行了测试,结果发现使用第三方标签进行精调的模型在内部数据集预测中表现更好,而大多数模型在跨数据集预测中无法很好地进行泛化,暗示一个数据集类型无法代表不同风格和领域的所有种类的 - CVPR元规范化的提示学习
通过 Prompt Meta-Regularization (ProMetaR) 方法,可以提高视觉语言模型中 prompt 学习的泛化能力,并可以从梯度对齐的角度解释这种改进。