- CQM:基于量化世界模型的课程强化学习
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化,并通过图形恢复离散观测 - 选择性推动生产力:提高迁移学习效率的高效数据集修剪
在这项工作中,我们旨在解决传输学习的数据集剪枝问题,即如何通过识别和删除冗余的训练样本,提高预训练效率并在下游目标任务中达到无损调优准确度。我们建立了统一的观点,将数据集剪枝与传输学习相结合,并发现现有的数据集剪枝方法不适用于传输学习范式。 - 提高强化学习中的数据效率:基于网格信息传播的新想象力机制
通过引入想象力机制,提高强化学习算法的数据效率,并在四个主流算法(SAC、PPO、DDPG 和 DQN)中得到了相对较好的性能提升。
- 通过可达性分析在层次化强化学习中的目标空间抽象
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
- 数据效率、降维、广义对称信息瓶颈
对称信息瓶颈(SIB)是一种同时压缩两个随机变量以保留它们的信息的降维技术,我们引入了广义对称信息瓶颈(GSIB),通过探索不同成本函数的形式来研究这种同时降维的代价,同时我们还研究了这种同时压缩的数据集大小要求,结果表明相比于逐个压缩变量 - 每个人都应该得到奖励:学习定制化的人类偏好
通过采集特定领域的偏好数据集,提出了一个三阶段的定制化奖励模型(RM)学习方案,旨在探索定制化偏好学习并在保留通用偏好能力的同时改进交互质量和数据效率。
- Diffusion-EDFs: SE (3) 上的双等变去噪生成建模,用于视觉机器人操作
本文介绍了 Diffusion-EDFs,一种新颖的方法,将 SE (3)- 等变性(roto-translation equivariance)引入扩散生成模型中,展示出了卓越的数据效率,只需要 5 至 10 个任务演示进行有效的端到端训 - ICCV对时序动作定位模型的数据效率和计算效率进行基准测试
本文研究了时间动作定位中当前深度学习模型在数据和计算能力受限制的情况下的性能表现,并发现 TemporalMaxer 模型在数据受限情况下表现最佳,推荐 TriDet 模型在训练时间受限时使用。另外,通过将不同长度的视频输入模型进行推理,发 - 离线强化学习在推荐系统中的机遇与挑战
该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题,着重介绍了现有文献在该领域的研究成果,同时强调了该领域面临的挑战、机遇和未来研究方向。
- 在线强化学习的样本复杂度界定
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
- SwIPE:高效稳健的医学图像分割与隐式块嵌入
SwIPE 是一种新颖的方法,利用隐式神经表示来进行医学图像分割,以补充传统方法在空间上的不灵活性,并能够同时实现准确的局部边界划分和整体形状的一致性,具有较少参数的优势和数据效率提高的特点。
- 伪三边对抗训练用于领域自适应遍历可行性预测
本文提出了一种基于深度神经网络的遍历预测方法,利用一种新颖的伪三边敌对模型和粗到细的对齐方法来进行无监督域自适应,使模型具有更高的数据效率并能够适应各种复杂环境下的导航系统。
- 物理信息神经网络建模在带移动浸入边界的系统中的应用:插入翼非定常流场
本文提出了一种基于物理引导神经网络、浸润边界方法和移动边界的方法来复现移动物体的非稳态流体力学过程,并研究了该方法的数据效率。
- 图像 - 语言学习的联合自适应表示
通过联合学习紧凑的视觉和语言表示形式以及使用自适应的、迭代融合多模态特征的方法来实现图像 - 语言学习,并增加数据效率和降低计算复杂度。该方法相比于当前流行的图像 - 语言模型而言,可降低 33% 的浮点数操作次数,同时提高性能,而只需要较 - ACL语言模型中如何种植树木:数据和架构对句法归纳偏差发生的影响
本文研究了预训练模型在通用语言中层次化句法功能的作用,通过诊断语法转换任务来诊断预训练参数的归纳偏差,结果表明,模型深度对于层次化泛化具有更大的作用,同时,在训练规模方面,使用适当的语料库预训练可以提高效率。
- 基于物理学知识的计算机视觉:综述与展望
本文探讨了基于物理规律的计算机视觉任务的制定和方法,提出了计算机视觉流水线的分类系统,并分别研究了如何在每个阶段中引入基本物理规律和控制方程,在计算机视觉领域中的应用前景是制定更好的计算机视觉模型以提高物理可行性、准确性、数据效率和泛化能力 - 基于奖励机器的自适应强化学习
本研究提出一种基于奖励机制的自适应学习算法,它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率,并在长期规划任务中取得了可靠的最优行为。
- 运用平衡混合专家模型对多元软测量任务关系进行建模
本研究提出了一种基于混合专家(MoE)和任务梯度平衡(TGB)的平衡混合专家模型(BMoE),通过表述任务关系和动态平衡任务梯度,解决了工业软传感模型中的数据效率和负迁移问题,并在典型的硫回收装置上获得了显著优异的表现。
- 探索关系抽取中的自动扰动自然语言解释
本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性,并发现即使是完全被破坏的解释,也仍有助于提供额外的上下文空间,从而取得与标注解释相当的结果,但计算效率显著提高了 20-30 倍。
- 基于深度 Koopman 表达的策略学习
本文提出了一种基于 Koopman 算子理论和策略梯度方法的政策学习算法,该算法将未知动态系统的线性逼近和最优政策搜索相结合,引入所谓的深度 Koopman 表示来提高数据效率,并应用贝尔曼最优原理来避免逼近系统动态引起的长期任务的累积误差