- LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型
通过对视觉标记和训练效率的分析研究,提出了一种名为 Visual Context Compressor 的方法,通过压缩视觉标记来提高多模式模型的训练效率,最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。
- 一种简化的一致性模型
一种训练一致性模型的替代方案,通过表达常态模型轨迹的微分方程,提高训练效率,并显示出经典的幂律缩放规律。
- LieRE: 广义旋转位置编码
引入了 Lie 组相对位置编码(LieRE),在 2D 和 3D 图像分类任务中取得了显著性能提升(高达 6%),训练效率(降低了 3.5 倍),数据效率(提升了 30%),相比于 Rotary Position Embeddings(Ro - 逆转遗忘 - 保留目标:基于逻辑差异的高效 LLM 最佳模型即时舍弃框架
通过介绍一种新的遗忘框架 Unlearning from Logit Difference(ULD),该方法通过计算目标模型与助理模型之间的逻辑差异来实现忘记目标文档和保留其他知识的目标,从而解决了 LLM 遗忘方法中的两个挑战问题(退化输 - CVPR小规模无数据知识蒸馏
通过使用小规模逆置数据进行知识蒸馏,提高训练效率的数据无关知识蒸馏 (SSD-KD) 方法在图像分类和语义分割基准测试中展示了超强的性能和高效的训练。
- 稀疏贝叶斯网络:医学图像分析中高效的不确定性量化
通过选择性地通过梯度敏感性分析评估确定性显著性,本研究引入了对稀疏(部分)贝叶斯网络的训练过程。通过将确定性参数与贝叶斯参数相结合,充分利用两种表示的优点,实现了高效的特定任务性能和最小化的预测不确定性。在多标签 ChestMNIST 分类 - ACLLight-PEFT: 轻量级参数高效微调通过早期修剪
Light-PEFT framework enables efficient fine-tuning by pruning redundant parameters in the foundation model and PEFT modu - 排除无关因素:通过连续动作屏蔽集中增强学习
本研究论文中,我们提出了三种连续动作屏蔽方法,以精确地将动作空间映射到与状态相关的相关动作集合,从而确保只有相关动作被执行,提高增强学习代理的可预测性,并使其在安全关键应用中得到应用。实验结果显示,这三种动作屏蔽方法比没有动作屏蔽的基线方法 - 步骤感知的偏好优化:在每个步骤中将偏好与去噪性能对齐
我们提出了一种 Step-aware Preference Optimization (SPO) 的方法,通过独立评估和调整每个步骤的去噪性能,在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。
- 缓冲异步安全聚合用于跨设备联邦学习
异步联邦学习中设备异构性的挑战与现有的用于保护用户隐私的安全聚合协议不兼容,本文提出了一种名为缓冲式异步安全聚合(BASA)的新颖安全聚合协议,BASA 与异步联邦学习完全兼容,并在用户之间无需任何同步交互的条件下,为交换一轮与服务器的通信 - SUBLLM:LLM 的一种新型高效架构及令牌序列子采样
通过提出 SUBLLM 架构,本文解决了大型语言模型中训练和推断的效率问题,通过引入子采样、上采样和旁路模块,SUBLLM 在训练和推断速度以及内存使用方面取得了显著的改进。
- LocMoE+:增强型路由器具有令牌特征感知的高效 LLM 预训练
LocMoE + 是低成本的改进版本,通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题,验证实验结果显示,每个专家处理的令牌 - ARVideo:用于自监督视频表示学习的自回归预训练
该论文介绍了一种新的自我监督视频表示学习框架 ARVideo,其中通过自回归方式预测下一个视频令牌,将自回归视频令牌按照时空间隔进行聚类,并采用随机化时空预测顺序来提高学习效果,实验证明 ARVideo 是一种有效的自我监督视频表示学习范式 - DiM: 高效高分辨率图像合成的扩散灰曼巴
提出了一种结合了 Mamba 和扩散模型的高效高分辨率图像合成方法 DiM,使用 ``weak-to-strong'' 训练策略和无需进一步微调的上采样策略提高训练和推理效率。
- Mosaic IT:利用数据镶嵌增强指令调优
通过引入 Mosaic Instruction Tuning (Mosaic-IT) 方法,本研究提供了一种人 / 模型无关的有效方式来增强通过现有指令调校数据进行细调训练的语言模型的能力,并实现了一致优于各种基准测试、训练成本减少 80% - DoGaussian:面向分布式的高斯喷点技术在大规模三维重建中的应用
我们提出了 DoGaussian 方法,该方法通过将场景分解为 K 个块并在 3DGS 的训练过程中引入交替方向乘子方法(ADMM),在主节点上维护一个全局 3DGS 模型和 K 个从节点上的本地 3DGS 模型,从而加快了在大规模场景中的 - 高速公路图在强化学习中的加速
为了提高 RL 算法的训练效率,本研究基于高速公路图的观察,提出了一种新颖的图结构,用于模拟状态转换,将 RL 训练在早期阶段显著加速,并在性能上优于其他无模型和带模型的 RL 算法。同时,基于高速公路图训练的深度神经网络代理具有更好的泛化 - 使用去相关反向传播的高效深度学习
使用去相关反向传播算法可以显著提高大规模深度神经网络的训练效率,并且可以获得更高的测试准确率。
- 基于文本质量的修剪方法用于语言模型的高效训练
本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这 - CVPR连续学习中的自适应记忆回放
基于丰富的记忆资源和训练效率的重视,我们引入了一种适应性记忆回放的框架来解决不断学习问题,通过多臂赌博机问题的方法来动态选择训练数据,从而在保持高性能的同时减少了遗忘达 10%。