- 儿童语音识别的离散标记增强
在这项研究中,我们调查了将离散语音标记整合到儿童语音识别系统中的方法,以解决数据稀缺和隐私问题,并探索了单视图和多视图策略,测试了模型的泛化能力。结果表明,儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能,并且参数减少了约 83% - 实例分割中标签噪声的基准测试:空间噪声的重要性
通过模拟不同噪声条件,对不同分割任务中实例分割模型的鲁棒性和泛化能力进行了评估,引入了 COCO-N 和 Cityscapes-N 作为强注释噪声的实验场景。同时,提出了利用基础模型和弱标注来模拟半自动标注工具和其噪声标签的 COCO-WA - 正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型
基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。
- ACLSTARLING:基于大型语言模型的文本强化学习自监督训练代理
自动化游戏生成的 STARLING 环境为基于文本的强化学习代理提供了提升性能和泛化能力的能力,以通过与预定义任务集上的训练来提高代理的技能水平。
- RoboCoder:大型语言模型从基础技能到通用任务的机器人学习
通过引入 RoboCoder 综合基准和自主学习框架,提高机器人在复杂环境中的普适性,并结合实时环境反馈不断更新和完善行动代码,使得大型语言模型在处理复杂任务时表现出显著提升。
- CLIP 引导属性感知预训练用于可泛化图像质量评估
提出了一种新颖的预训练框架,通过从通用视觉语言模型中选择性提取与图像质量相关的知识,并利用大型数据集的可扩展性,构建了一种适用于图像质量评估的通用表示。同时我们的方法在多个数据集上取得了最先进的性能,并展现了显著的泛化能力。
- ICML基于边界的多类别泛化界限与几何复杂度
通过对深度神经网络的一种复杂性度量,即几何复杂性,进行研究,我们提出了一种新的上界推导出的泛化误差,该泛化误差与网络的几何复杂性的边际归一化相关,并适用于广泛的数据分布和模型类。同时,我们对 ResNet-18 模型在 CIFAR-10 和 - 通过扰动伪造检测对抗性数据
通过学习区分自然数据分布与对抗性噪声分布的覆盖关系,我们提出了扰动伪造方法,通过噪声分布扰动、稀疏掩模生成和伪对抗性数据生成来训练一个对所有类型的对抗性攻击具有强大泛化能力的检测器,同时不依赖任何特定模型。实验证明我们的方法具有出色的泛化能 - CVPROmniGlue: 基于基础模型引导的通用特征匹配
OmniGlue 是第一个以广义化为核心原则设计的可学习图像匹配器,它利用视觉基础模型的广泛知识来指导特征匹配过程,提高对未知图像域的泛化能力,并且通过引入新颖的关键点位置引导的注意机制,分离空间和外观信息,从而实现了出色的匹配描述符。
- 量化生成模型解决伊辛模型的泛化能力的方法
通过设计一个 Hamming 距离约束器来量化生成模型的泛化能力,本研究对几种常见的神经网络架构(前馈神经网络、递归神经网络和图神经网络)结合变分自回归网络(VAN)的泛化能力进行了数值实验,并发现网络在小规模问题上的泛化能力可以预测其在大 - 通往通用基于深度学习的树实例分割模型
研究了深度学习方法在树木分割中的应用,通过使用七个不同数据集的训练,发现从针叶树为主的稀疏点云到阔叶树为主的高分辨率点云的泛化是可能的,但由高分辨率到低分辨率点云的泛化却具有挑战性,强调了模型开发中需要具备多样性数据特征的森林点云。
- SparseTSF: 长期时间序列预测的 1k 参数建模
SparseTSF 是一种全新的、极其轻量级的用于长期时间序列预测(LTSF)的模型,通过最小化计算资源,解决了在扩展时间范围内对复杂时间依赖性进行建模的挑战。SparseTSF 的核心是交叉周期稀疏预测技术,通过降采样序列来专注于交叉周期 - 我有一个关注桥要向您推销:模块化翻译架构的泛化能力
模块化是机器翻译的一种范例,具有在训练时模型变得庞大而在推断时变得小巧的潜力。在此研究领域中,模块化方法,尤其是注意力桥,被认为通过促进语言无关的表示来改善模型的泛化能力。本文研究了模块化对翻译质量的影响,以及模块化架构在不同评估场景下的泛 - 评估切割粘贴数据增强在遥感图像语义分割中的有效性
卫星影像重要用于环境监测和城市规划,本研究探索了一个适用于语义分割的剪切粘贴增强技术,通过利用语义分割标签中的联通组件,从而在训练过程中随机粘贴提取的实例,实验结果表明,这种增强技术显著提升了语义分割模型的平均交并比得分,从 37.9 提升 - SilverSight: 基于自适应语义空间学习的多任务中国金融大语言模型
大型语言模型被广泛应用于各个专业领域,本研究引入了一种自适应语义空间学习框架(ASSL),通过对语义空间内数据分布的自适应重组,增强了多专家模型的性能和选择效果。我们使用此框架训练了一个名为 “SilverSight” 的金融多任务 LLM - 利用配备仿射编码器和解码器的脉冲神经网络进行高效学习
我们研究了与尖峰神经网络相关的学习问题,具体来说,我们考虑具有仿射时间编码器和解码器以及仅具有正向突触权重的简单尖峰神经元的尖峰神经网络的假设集。我们证明了正权重尖峰神经网络的广泛表达性结果,包括对平滑函数的速率最优逼近或无维度诅咒的逼近。 - 混合图上的消息传递网络的泛化界限
研究了消息传递神经网络(MPNNs)的泛化能力,并给出了具体适用于具有规范化求和和平均聚合的 MPNNs 的泛化边界。在更现实和具有挑战性的情境下,通过分析简单的随机图、扰动的图标和稀疏图,得出结论表明,只要图形足够大,比训练集的大小复杂, - LLM 预训练中的基于贝叶斯优化的检查点合并
我们提出了一种在预训练大型语言模型中合并检查点的方法,通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重,实验证明我们的方法在最大限度减少成本的同时增加了预训练能力,并展示了跨多个领域的强大泛化能力。
- 自监督多帧神经场景流
通过对大规模点云场景流估计任务的统一稳定性进行理论分析,揭示了 Neural Scene Flow Prior(NSFP)在处理大规模点云场景流估计任务中的有效性。我们进一步探索了利用历史多帧点云改进场景流估计的方法,并在理论和实验结果上验 - 利用神经辐射场在关键点场景坐标回归中的描述符合成
通过使用神经辐射场(NeRF)合成关键点描述符的流程,提出了一种针对数据稀缺环境的解决方案,以增强关键点场景坐标回归(KSCR)模型的泛化能力,从而显著提高定位准确性