通过双重嵌入学习条件分布

Jul, 2016

Learning from Conditional Distributions via Dual Embeddings

Bo Dai, Niao He, Yunpeng Pan, Byron Boots, Le Song

TL;DR本论文提出了一种新的训练条件分布问题的方法，利用 Embedding-SGD 算法，解决了样本量小的问题，结果在合成数据及真实数据上都取得了显著的性能提升。

Abstract

Many machine learning tasks, such as learning with invariance and policy evaluation in reinforcement learning, can be characterized as problems of learning from conditional distributions. In such problems, each s

machine learning conditional distributions policy evaluation sample complexity embedding-sgd

发现论文，激发创造

神经（熵）最优输运的生成条件分布

学习条件分布是具有挑战性的，因为所需的结果不是单个分布，而是与协变量的多个实例对应的多个分布。我们引入一种新颖的神经自由最优输运方法，旨在有效地学习条件分布的生成模型，特别是在样本量有限的情况下。我们的方法依赖于两个神经网络的极小极大训练：一个生成网络参数化条件分布的逆累积分布函数，另一个网络参数化条件 Kantorovich 势。为防止过拟合，我们通过惩罚网络输出的 Lipschitz 常数来正则化目标函数。我们在真实数据集上的实验结果显示了我们的算法相对于最先进的条件分布学习技术的有效性。我们的实现可以在 https URL 找到。

Jun, 2024

分布的两阶段样本学习理论

该研究提出了一种简单有效的方法，将概率分布嵌入再应用岭回归算法来解决分布回归问题，同时证明该方法的稳定性和收敛速度，回答了 15 年来未解决的开放性问题，并涵盖了一系列相关的概率分布问题。

Feb, 2014

作为回归器的条件均值嵌入 - 补充材料

本文介绍了使用 reproducing kernel Hilbert space embeddings of conditional distributions 与 vector-valued regressors 之间的等价关系，从而引入了一个自然的正则化损失函数以更好地理解和使用这种嵌入方法，并且通过向量回归方法的应用和导出推导生成了嵌入算法的最小一致收敛率 O (log (n)/n)，并在强化学习任务中得出了一个稀疏嵌入算法。

May, 2012

分布鲁棒性的瞬间

在分布鲁棒学习中，我们引入了基于对抗性矩违规的新的极小极大目标，并展示了通过最小化该目标等效于最小化与真实条件期望的最坏情况下的 $l_2$ 距离，从而在计算成本上提供了大体量的经验性节省。

May, 2024

分布回归学习理论

本文研究了分布回归问题，提出了一种基于再生核希尔伯特空间的简单分析计算的岭回归方法，证明了该方法在两阶段抽样设置下是一致的，并且该估算器能够达到一阶段最小化最优速率。

Nov, 2014

基于均值嵌入的分布式贝尔曼算子

我们提出了一个新颖的算法框架来进行分布式强化学习，基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法，提供了渐近收敛理论，并对算法在一套表格任务上的实证性能进行了研究。此外，我们展示了这种方法可以与深度强化学习简单地结合，获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。

Dec, 2023

间接样本的主动分布学习

使用间接和序列样本学习离散随机变量 X 的概率分布 P_X 的问题已经在本文中得到研究，其中提出了一种基于几个条件限制的迭代算法，成功地在不同情况下实现了更好的效果比基线方法更好。

Aug, 2018

最小概率流学习

本文提出了一种新的参数估计技术，该技术无需计算不可处理的归一化因子或从模型的平衡分布中采样，通过建立动态算法将观测到的数据分布转化为模型分布，并通过使得数据分布与运行该动态算法的分布的 KL 散度最小化来进行优化，在 Ising 模型等情况下展示比当前先进技术更快的学习效率和更低的误差。

Jun, 2009

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019