- 增强神经表示的准确性和参数效率
参数化神经网络权重的准确性和参数效率之间的基本权衡被研究,表明通过仅使用权重重构目标可以有效地实现恢复原始模型的准确性。此外,通过探索提高权重重构在参数效率约束下的潜在因素,提出了一种新的训练方案,将重构目标与知识蒸馏等辅助目标分离,相对于 - 流式端到端语音识别的解码器架构
使用解码器专用架构进行分块流式自动语音识别,通过压缩 CTC 输出和上下文嵌入的语音特征,并将其作为提示逐块顺序提供给解码器,以快速估计输出令牌,同时采用随机长度前缀提示的新型训练方案,使模型能够应对分块处理引起的截断提示,并且在 Libr - ComboStoc: 扩散生成模型的组合随机性
本文研究了扩散生成模型中一个被忽视但重要的因素,即组合复杂性。我们展示了通过构建充分利用组合结构的随机过程来解决该问题,从而加速了网络训练,并使得测试时间生成具备根据不同维度和属性的变化程度调控的能力。
- 通过师生无数据知识迁移训练未见过的陌生场所的自定位模型
该研究提出了一种适用于开放世界分布式机器人系统的新型训练方案,其中一个机器人(学生)可以向在陌生地点遇到的其他机器人(教师)寻求指导,通过设计一个出色的学生 / 提问者与教师的交互,得到有效的问答序列,用作学生自定位模型的伪训练数据集。该方 - MobileVLM V2:视觉语言模型的更快、更强基准
MobileVLM V2 是在 MobileVLM 的基础上进行显著改进的一系列视觉语言模型,证明了新颖的结构设计、为移动 VLM 量身定制的改进训练方案和优质数据集的精心策划可以显著提高 VLM 的性能。特别是,MobileVLM V2 - 将示例优化引入双网络训练以进行人类网格恢复
我们提出了一种基于优化的单图像人体网格恢复方法,并结合示例优化和训练优化来增强模型性能。
- VideoCrafter2:克服数据限制以提高视频扩散模型的质量
基于给定提示生成视频的文本到视频生成旨在生成可信的视频。最近,一些商业视频模型能够生成具有最小噪声、出色细节和高美观分数的视频。然而,这些模型依赖于大规模、经过良好过滤、高质量的视频,而这对社区来说是不可获得的。许多现有的研究工作使用低质量 - 递归蒸馏用于开放集分布式机器人定位
提出了一种适用于开放式分布式机器人系统的新型训练方案,通过在未知地点遇到的其他机器人的协助下,构建伪训练数据集并用于学生模型的持续学习,在处理各种类型的开放式教师时只引入了最少的假设,包括不合作、无法训练(例如图像检索引擎)或黑盒教师(即数 - 专家权重平均化:一种新的用于视觉 Transformer 的通用训练方案
Vision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, wh - 无需数据学习简化运动学
本研究旨在自动识别高维物理系统中低能量状态下的低维子空间,通过使用神经网络来将低维潜在向量映射到完整的配置空间,并提出了对于任意系统兴趣的训练方案,为非线性、弹性体、布料子空间以及碰撞刚性体和连杆等更一般的系统都提供了有效的解决方案,可以用 - 通过多样性权重实现生成模型的模式平衡
通过平衡训练数据集中的模式,我们提出了一种多样性权重训练方案,以增加模型的输出多样性,并在受控环境下进行了实验,证明了我们的方法的潜力,这将有助于解决生成式机器学习中偏差、公正性和代表性等更广泛辩论中的多样性问题。
- 二进制神经网络中的数据流优化
通过引入剪裁块,减少二元神经网络层的数据宽度和内部累加器大小,同时优化批标准化层的实现和 ARM 指令集的二值化卷积,提高了推理速度和准确度。
- 通过对抗学习连续噪声损坏实现的强大半监督异常检测
这篇论文探讨了如何应用对抗性训练和增加噪声的方法来解决自动编码器过拟合问题,从而提高异常检测的性能,并在多个数据集和实际场景中进行了验证。
- 通过多任务强化学习实现稳健和多功能的双足跳跃控制
本文介绍了一种多任务强化学习框架,以训练扭矩控制双足机器人在现实世界中执行各种跳跃任务,通过不同的训练阶段和多样化的情境探索,最终实现了高鲁棒性的多任务策略,并为 Cassie 双足机器人在现实世界中完成各种具有挑战性的跳跃任务提供了支持。
- 分析抽象文本摘要的多任务学习
本研究分析了多任务学习中任务家族对英文抽象文本摘要任务的影响,并发现某些任务家族对下游性能有积极影响,此外,任务家族选择和组合对下游性能的影响更大,支持在抽象文本摘要中采用任务家族。
- 利用真实对话数据实现多渠道连续语音分离
本研究提出一种可同时利用有标注数据和非标注数据进行连续语音分离模型训练的三阶段训练方案,并将其应用于任意麦克风阵列采集的多通道语音数据上取得了较好效果。
- 基于专家乘积生成式对抗网络的多模态条件图像合成
本研究提出了一种基于 Product-of-Experts Generative Adversarial Networks(PoE-GAN)框架的条件图像合成方法,可以在多种输入模态或其任意子集上生成图片,并通过精心设计的训练方案学习了如何 - ECCV多出口语义分割神经网络
我们提出了一种基于 Multi-Exit Semantic Segmentation 网络的框架,通过在中间引入带参数的早期退出来实现更高效的推理,并在部署时通过详尽的搜索来自适应设备和应用程序要求,从而在相同的计算预算下实现更高的准确性或 - CVPR一阶段训练生成对抗网络
通过引入一种新的梯度分解方法,将生成式对抗网络(GANs)分为对称 GAN 和非对称 GAN 并进行统一,在一个阶段内有效地训练了两者,以此减轻了训练的工作量,并在各种数据集和网络架构上实验证明了 1.5 倍的加速效果。
- MM交互式分割达到 99% 精度
本文提出了一种新的交互式架构和训练方案,旨在更好地利用用户工作流,并展示出引入专门设计用于复杂对象边界的合成训练数据集可以进一步获得显着的改进,该网络达到了最先进性能。