- 4M-21:面向数十项任务和模态的任意到任意视觉模型
通过对多个多媒体形式进行联合训练和扩展,我们成功地提升了多模态模型的能力,并展示了训练一个模型以解决更多任务 / 多模态性的可能性,而不损失性能,从而实现更精细化和可控的多模态生成能力。
- 半监督语义分割中的时态知识重访与最大化
提出了一种 PrevMatch 框架,通过最大化利用训练过程中获得的时间知识,有效地缓解了复杂的训练流程和计算负担所带来的限制,同时在各种评估协议上始终优于现有方法,特别是在 DeepLabV3 + 和 ResNet-101 网络设置下,在 - 基于标签传播的物理信息神经网络与高斯过程训练方案
该论文提出了一种半监督方法来训练基于物理信息的机器学习方法,包括自我训练的基于物理信息的神经网络和基于物理信息的高斯过程,并通过协同训练将两者整合起来。我们通过大量的数值实验展示了这些方法如何改善了物理信息机器学习中常见的时间向前传播信息的 - 通过强化学习学习为 LLM 生成的文本添加水印
我们研究了如何给 LLM 输出添加水印,即将可算法检测到的信号嵌入 LLM 生成的文本以跟踪滥用。与目前主流方法不同,我们扩大了水印设计空间,将 LLM 调整阶段包括在水印流程中。通过强化学习提出了一种共同训练框架,迭代地 (1) 训练一个 - 一种全能的新型大规模多视角聚类的双空间共训练基准线
通过在两个不同的空间中进行共训练,提出了一种名为 DSCMC 的新型多视图聚类模型,以增强聚类性能。我们的方法旨在捕捉不同视图中数据点之间的内在关系和结构,并将信息从多个视图映射到共享的潜在空间。通过构建潜在一致的锚图和特征转换来实现共同优 - OMG-Seg:一个模型足够好吗?适用于所有分割任务?
本论文提出了一种名为 OMG-Seg 的基于 Transformer 的编码器 - 解码器架构,通过特定任务的查询和输出,能够支持十多个不同的分割任务,并且在各种任务和数据集中显著减少计算和参数开销,同时评估了任务之间的互动影响和关联
- 移动 ALOHA: 使用低成本全身远程操作学习双臂移动操纵
通过移动操作的人类示范来模仿学习已经在机器人领域取得了令人瞩目的成绩。本研究开发了一种用于模仿双手操作和需要全身控制的移动操作任务的系统,并提出了 Mobile ALOHA 作为数据收集的低成本全身远程操作系统。通过使用 Mobile AL - AAAI多任务学习中的分布匹配:在人脸及其他任务上的大规模研究
挑战现有多任务学习 (MTL) 框架,提出新方法通过分布匹配实现任务间的知识交流,证明少量注释或非重叠注释情况下的 MTL 仍能成功,且在各个领域的案例研究中均带来了较大的性能提升。
- 元学习协同训练:双视角胜过单一视角
基于少量训练资源,Meta Co-Training 在 ImageNet-10% 上取得了新的最先进性能,并在其他细粒度图像分类数据集上胜过先前的半监督方法。
- 语言模型的质量改进和压缩的共训练与共蒸馏
知识蒸馏是一种通过将知识传递给较小的模型来压缩计算成本昂贵的预训练语言模型,从而实现在资源受限或实时环境中使用的方法。为了解决性能和推理速度同时提高的问题,我们提出了一种名为 Co-Training and Co-Distillation - 多尺度学习原子间势
用于分子动力学模拟的多时间步积分器的机器学习插值势具有比传统势能更广泛的适用性,通过联合训练两种机器学习插值势进行尺度分离可以实现显著的加速和无损的精度。
- 噪声时间序列学习的联合训练方法
我们的研究论文关注于强大的时间序列表示学习,通过两种不同编码器为输入的时间序列创建两个视图,并通过协同训练的对比学习来学习这些编码器,通过利用不同视图的互补信息,我们提出的 TS-CoT 方法可以减缓数据噪声和损坏的影响,通过精细调节,TS - CVFC: 跨视图特征一致性基于注意力的病理图像弱监督语义分割
提出了一种基于注意力机制的跨视图特征一致性端到端伪掩膜生成框架(CVFC),通过三个分支的联合框架,使用多尺度集成特征图生成类激活图(CAM),并通过特征一致损失和特征交叉损失对 CVFC 的参数进行优化,最终在 WSSS4LUAD 数据集 - StarVQA+: 视频质量评估的时空注意共训练
本文提出了一种基于自注意力机制的 Space-Time Attention 网络用于解决视频质量评估问题,通过联合训练空间和时间注意力权重来解决 Transformer 中的数据饥饿问题,并在实际测试中证明了其优越性。
- 音频反欺诈的锐度感知优化多数据集协同训练
本文提出基于多数据集协同训练和锐度感知最小化的紧凑型音频反欺诈模型,具备跨数据集的泛化性能,相较于预训练模型,参数数量少 4,000 倍,并在多个数据集上表现出竞争力。
- DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘
DisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型,采用一种新颖的共训练技术来优化多个小学生模型,以促进它们的半监督学习效果,并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度,同 - 一种使用预训练扩散模型的单次半监督联邦学习探究
本研究引入预训练扩散模型到联邦学习中,提出了 FedDISC 方法来解决高通信成本、客户端负担和分布差异等挑战,该方法有效地解决了非独立同分布客户端上的一次半监督问题,并通过可视化证明了数据隐私的保密性。
- CVPR无需旋转注释的旋转检测学习知识融合
本文提出一种基于共训练的方法,通过在目标数据集上进行更便宜的轴对齐注释,预测精确的旋转框,解决传统旋转检测器的旋转边界框注释耗时的问题。通过在跨域数据集上的知识转移,该方法可显著提高较弱注释数据集的学习效果,在各种目标数据集上表现良好。
- TANDEM3D:用于 3D 物体识别的主动触觉探测
本文提出了一种基于 co-training 框架和 PointNet++ 的 TANDEM3D 三维物体触觉识别方法,在模拟环境中进行训练并在真实世界实验中进行验证,相比现有基准,TANDEM3D 在 3D 物体识别方面具有更高的准确度和更 - 医疗临床笔记相似性估计的图增强循环学习框架
本文介绍了一种在医疗领域中处理语义文本相似度的图增强循环学习框架。该框架可以方便地在最先进的基础语言模型上实现,并通过使用基于图卷积网络的辅助网络同步训练,利用领域知识来提高其性能。研究结果表明,引入 GCN 和同步训练框架的领域知识,分别