- 论基于模型的强化学习中超参数优化的重要性
本文研究了基于模型的强化学习中的自动超参数优化方法,实验证明,与人工调参相比,自动 HPO 能显著提高算法性能,并通过动态地调整多个超参数进一步优化模型性能,实验还揭示了计划视野和学习率等超参数对模型稳定性和奖励的影响。
- 基于反事实数据增强的高效强化学习
该研究提出一种数据效率的强化学习算法,利用结构因果模型来进行状态动态建模,从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。
- CVPR简单的复制粘贴是一种强大的实例分割数据增强方法
本论文针对计算机视觉中重要的挑战之一 —— 构建数据有效且能处理罕见对象类别的实例分割模型,研究了一种使用数据增强方法的 Copy-Paste 方法,并发现简单的随机粘贴对象机制足以提供良好的性能,并且能够与半监督学习方法相结合获得更好的结 - 对比建模:一种高效的多模态生成模型框架
通过对比学习,训练多模式生成模型不仅关注多模式信息的共性,还关注相关和非相关的多模式数据之间的区别,使得可以更加有效地利用未标记的、不成对的多模态数据。
- CVPRVirTex:从文本注释中学习视觉表示
使用 COCO Captions 监督预训练的 VirTex 方法可以在使用更少的图像的情况下,产生与 ImageNet 监督或非监督学习得到的特征所匹配或超越的视觉表征。
- ICML混合和组合方法:用于深度学习中不确定性校准的集成和组合方法
本文研究了机器学习分类器的后续校准问题,提出了三种不同的校准要求,并通过 Mix-n-Match 校准策略实现了数据效率和表达能力的显着提高,并提出了一种基于核密度估计的可靠评估方法,结果表明我们的方法在大多数实验设定中表现优于现有的解决方 - 基于关系强化学习实现实用的多物体操作
本文介绍了使用基于图形的关系结构从简单的任务中学习并实现复杂的机器人操作任务,使用了强化学习方法并在喂入少量数据的情况下超越现有的最先进方法,同时也实现了零样本泛化。
- 基于深度强化学习的形态和行为数据高效协同适应
本文提出了一种基于深度强化学习和软演员 - 评论家算法的全新方法:将机器人形态与其控制器自动高效地协同适应,以降低试验形态与行为的数量,并使用先前测试过的形态和行为来估计新候选形态的性能,该方法在真实世界中实现机器人设计的协同适应尤为适用。
- EMNLP基于敌对半监督学习的极度稀缺监督数据图像描述方法
本文提出了一种新颖的数据有效的半监督学习框架,该框架利用大规模的未配对图像和标题数据来学习它们之间的联系,并通过生成对抗网络将伪标签分配给未配对样本,来训练图像字幕模型。实验结果表明,该方法相对于几个强基线的效果明显,尤其是在配对样本数量很 - 无标注数据下的少样本对话生成:一种迁移学习方法
本文介绍了一种基于 MetaLWOz 数据集的知识迁移技术,实现在少量样本下训练对话系统的方法,并在多个领域的人机对话中达到了最先进的结果,同时也不需要任何标注数据。
- ACL数据高效的神经指令跟随预学习环境表示
研究了一种自然语言指令到状态转换(动作)映射的数据有效学习方法,该方法受到从先前的语言观察中形成的概念容易被关联到语言的思想的启发。通过使用观察自由语言状态转换的初始环境学习阶段来增强基线指令跟随学习器,使其在处理指令跟随训练数据之前诱导出 - 图像分类数据集中的语义冗余:你不需要的 10%
研究发现,对于常见的基准数据集,可以找到可推广的子集,该子集在训练时与完整数据集相当。此结果可以发现 CIFAR-10 和 ImageNet 数据集中的显着冗余(至少 10%),并且观察到所需图片和多余图片之间存在语义相关性,这可以鼓舞进一 - 卷积神经网络实现准确、高效、无限制的文字识别
文章提出了一种数据高效,端到端的神经网络模型用于通用的非受限文本识别,并通过在七个公共数据集上达到最优结果,表明了这种模型的通用性和优越性。
- 面向对话代理的持续学习
本文介绍了一种基于最新的神经网络连续学习技术的领域无关的神经对话模型,同时提出了一种新颖的神经连续学习算法,能够以数据 - 效率的方式跨越不同任务积累技能,在客户支持领域通过从合成对话或人类之间的对话到人 - 计算机对话的连续技能转移来验证 - 问答式学习
本文介绍了一种基于 “学问即问”(LBA)的交互式学习框架用于开发和测试智能视觉系统在视觉问题回答方面的应用, 不同于标准的 VQA 训练,LBA 更接近自然学习且可能具有更高的数据效率,自动生成的数据在 CLEVR 数据集上具有很好的性能 - MBMF: 基于模型的先验知识用于无模型强化学习
本文提出了一种新的方法,旨在将模型自由和模型相关两种范式结合起来,通过学习概率动力学模型和利用它作为模型自由优化的先验概率来实现数据有效和成本节约,并证明这种方法优于单纯的模型相关和模型自由方法,以及从模型相关模式切换到模型自由模式的方法。
- 具有分析核嵌入的独立性自适应测试
提出了一种新的计算有效的依赖度量和自适应统计独立性检验方法,其特点是数据高效运行时间为线性,并且在真实基准中表现良好。
- 外语语法
采用领域无关的注意力增强序列到序列模型在一大合成语料库的标注基础上取得了最先进的效果,训练小规模人工标注的数据集时也达到了标准解析器的表现,且较大程度上提高了数据利用率和处理速度。