- 领域自适应遇到个体公平,他们相处融洽
本文论述了算法公正与数据分布的关系,即算法公正干预可以帮助机器学习模型克服数据分布的偏差,并且领域自适应方法可以减轻算法偏差。
- ICML通过上下文感知的动态模型实现对新物理系统的泛化
提出了一种新的框架 CoDA,旨在解决数据驱动模拟物理系统无法泛化到共享相同一般动态的新系统的问题,该框架结合了上下文信息的动态调整和超网络,实现了快速的适应和更好的泛化性能。
- ICLR通用重新加权为何不优于 ERM
本文介绍了一种名为广义重加权算法(GRW)的类别,它通过迭代地重新加权训练样本来更新模型参数。我们发现在采用 GRW 算法的过拟合模型下,所得到的模型与采用 Empirical risk minimization 得到的模型非常相似。此外, - 零样本人工智能协同的最大熵基于人口训练
本文提出了一种通过最大熵种群训练(MEP)来训练 RL 系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏 PPO(SP)等方法进行比较,我们证明了 - MM基于价值惩罚的 Q 学习在推荐系统中的应用
以强化学习为基础,提出了一种基于不确定性权重的离线学习算法 Value Penalized Q-learning (VPQ),用于解决商业推荐系统中动作分布偏移问题,并通过与经典推荐系统模型的集成,取得了优异的实验结果。
- 基于隐式 Q 学习的离线强化学习
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基 - 面向多任务离线强化学习的保守数据共享
介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题,并提出了一种保守数据共享的方法,应用于单任务离线强化学习,取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。
- VisDA-2021 竞赛:通用领域自适应模型改进域外数据性能
该研究介绍了 Visual Domain Adaptation 2021 竞赛,将机器学习方法的性能从同一领域扩展到处理不同域的数据。该竞赛挑战的是无监督域自适应问题,并关注在目标数据集中可能遇到的数据分布漂移、缺失和 / 或新类别的困难 - Shifts: 多个大规模任务中的真实分布转移数据集
本研究提出了 Shifts 数据集,用于评估不确定性预测和对分布偏移的鲁棒性,并提供了基线结果和任务描述。
- AAAI具有稳定对抗训练的分布鲁棒学习
本文提出了一种新的稳定对抗学习(SAL)算法,该算法利用异质数据源构建了更实用的不确定性集,并根据协变量与目标的稳定性进行差异化的鲁棒性优化,理论上表明我们的方法适用于随机梯度下降优化,并为我们的方法提供了性能保证。在模拟和实际数据集上的实 - ICMLOptiDICE: 通过稳态分布校正估计进行离线策略优化
本文提出了一种离线强化学习算法 OptiDICE,通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题,并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。
- OPAL: 离线原始探索以加速离线强化学习
本论文研究了如何利用离线数据中的原始行为来优化强化学习模型,在一系列基准测试中取得了不错的成果并证明了其有效性。
- WSDM因果传递随机森林:结合记录数据和随机实验进行强鲁棒性预测
提出了一种 causal transfer random forest 模型,它将原有的训练数据与来自一个随机实验的少量数据组合,使其对 feature shift 具有鲁棒性,并在点击预测等任务中表现出优越性。
- 重新思考基于分布匹配的域自适应
本文通过分析现有的 DA 算法的局限性,构建了更加现实的数据集来评估现有算法并提出了一种新的基于 Instance-based Predictive Behavior Matching 的算法 InstaPBM,实验结果表明 InstaPB - 离线强化学习的保守型 Q 学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离 - MOPO: 基于模型的离线策略优化
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
- 利用风险外推 (REx) 实现对于分布外数据的泛化
采用风险外推法的鲁棒优化可以在训练域和测试域之间进行平衡,从而提高模型对于分布漂移的抵抗能力,并且可以恢复目标的因果机制,同时还能提供对于输入分布变化具有一定鲁棒性的能力。
- 将对称性纳入深度动力学模型中以提高泛化性能
该研究提出将对称性引入卷积神经网络中,从而提高其在预测物理动态方面的准确性和泛化能力,该方法在实验和理论上都表现出了对分布转换的鲁棒性,并且在雷利 - 贝纳对流和真实世界的海洋表现上比传统方法更优秀。
- 学习加权表示以实现跨设计通用化
提出了一个基于表示学习和样本重加权的误差界,针对因果推断和无监督域自适应问题,在设计转换下减少泛化误差的算法框架,与以往方法相比具有更好的效果并具有渐近一致性。