- CVPR使用潜在分位数匹配的数据集压缩
我们提出了一种新的方法:潜变量分位数匹配(LQM),通过匹配潜变量的分位数来最小化两个分布之间的拟合优度检验统计量,以解决现有分布匹配方法的缺点。实证实验表明,LQM 在基于分布匹配的数据集压缩中与或优于先前的最新技术。此外,我们展示了 L - 将语言模型与人类偏好对齐
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
- 基于多样化分布匹配的可识别无监督领域转换
无监督领域转换 (UDT) 通过概率分布匹配转化一个领域的样本到另一个领域,以找到保持高层语义意义的转换函数。然而,潜在的问题是存在多个转换函数,导致无法准确识别并产生错误的转换结果。本研究对这一识别问题进行了深入探讨,并提出了一种消除多个 - 使用 Wasserstein 度量的数据集精馏
利用 Wasserstein 距离进行数据集简化,通过嵌入合成数据到预训练分类模型的特征空间进行分布匹配,实现了数据集简化的新的最先进性能。
- 多源领域自适应遇上数据集蒸馏通过数据集字典学习
该论文探讨了机器学习中两个问题的交集:多源领域适应 (MSDA) 和数据集精炼 (DD)。通过采用之前 MSDA 领域的作品以及 DD 方法的分布匹配,在四个基准测试中进行了深入的实验,表明即使每类仅有 1 个样本,也能够获得最先进的适应性 - CVPR改进的分布匹配用于数据集浓缩
通过分布匹配的方法,我们提出了一种新的数据集精简方法,有效地减少了计算资源的使用,使得数据集精简能够应用于更大的数据集和模型。
- 通过撤销映射形式主义进行迁移强化学习
提出了一个名为 TvD 的框架,通过分布匹配实现智能体在交互域之间的知识转移,其基于优化目标推导出了一种新的策略更新机制,该机制可以有效地解决任务差异性的影响。
- 推荐系统中的辛普森悖论:协调个体评价与汇总评价的不同
本文重点研究了推荐系统中的公平性,尤其是如何评估推荐系统在分配相关物品方面的公平性,并发现了不同方法之间的差异与悖论。我们提出了一种基于分布匹配的技术,用于在现实世界的推荐系统中估算单个用户的相关程度和满意度。
- 关于强化学习和分布匹配的论文,用于微调语言模型以避免灾难性遗忘
研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系,并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。
- DM$^2$: 分布匹配的去中心化多智能体强化学习
本研究讨论无集中式组分和显式通讯的分布式多智能体学习,研究表明分布式匹配技术可用于协调独立智能体之间的协作,开发了一种实用的基于样本轨迹的算法(DM^2),已在 StarCraft 领域验证。
- 软 DICE 用于模仿学习:重思离线策略分布匹配
SoftDICE 是一种采用熵正则化的离线算法,用于解决样本有效的模仿学习中的分布匹配问题,其表现取得了 Mujoco 基准任务上的最佳结果。
- AAAI分布匹配用于合理化
本文提出了一种新的合理化方法,它匹配特征空间和输出空间中的权合理和原始输入文本,并在经验上通过大幅优于以前的方法。
- 异质多任务学习的分布匹配:一项大规模人脸研究
本文提出了一种基于分布匹配的方法,将多个任务进行弱监督的共同训练,建立了第一个全面学习面部行为的框架 FaceBehaviorNet,并利用该框架进行了零 / 少样本学习,实现了好于现有方法的效果。
- SPatchGAN:一种基于统计特征的鉴别器,用于无监督的图像到图像的转换
本研究提出了一种基于统计特征而非单个补丁的鉴别器架构,通过多尺度的关键统计特征的分布匹配稳定网络,从而简化了框架并增强了细节,用于无监督的图像转换,包括自拍到动漫,男性到女性和眼镜移除等应用场景,并在各种挑战性应用程序中超越了现有的最先进模 - 基于观测的离策略模仿学习
本文提出了一个基于观察学习的学习方法,包括分布匹配、离线策略学习和倒置动作模型,能够在性能和样本效率上与最先进的方法相媲美。
- ICCV无配对的图像语义数据鲁棒性转化
针对许多不成对图像翻译应用需要在翻译过程中保持输入内容的语义,而现有的分布匹配方法容易导致翻译出现意义的混淆,本文提出了一种基于对抗学习的方法来实现对输入内容的意义保护,称为 “语义鲁棒性”,该方法使用多尺度特征空间扰动对鲁棒性损失进行优化 - 基于属性缺失图的学习
本文提出了一种基于分布匹配的图神经网络 SAT,用于解决结点属性缺失情况下的图学习问题,SAT 的性能优于其它方法。
- ICLR通过 Wasserstein 度量匹配分布来规则神经网络的激活函数
该论文介绍了一种新的正则化方法(PER), 通过将激活在概率分布空间中与标准正态分布进行匹配,从而达到正则化的目的。该方法可以用于图像分类任务和语言建模任务。
- 通过离策略分布匹配实现的模仿学习
本研究提出一种名为 ValueDICE 的基于离线数据的策略优化算法,它使用分布匹配方法来提高数据利用效率并优化如何评估专家演示数据的不同媒介投放,实现了在模拟学习测试上的最佳性能。
- ICLR带保证的弱监督解缠模型
研究了当领域匹配、限定标签、匹配对和 rank-pairing 等弱监督方法与基于分布匹配的学习算法相结合时,弱监督何时以及如何保证解缠缚表示的理论框架及其保证和局限性,并通过实验证明了我们理论框架的预测能力和有用性。