对比差异预测编码

Oct, 2023

Contrastive Difference Predictive Coding

Chongyi Zheng, Ruslan Salakhutdinov, Benjamin Eysenbach

TL;DR本文介绍了一种自适应时间差异版对比性预测编码，通过拼接不同时间序列数据的片段来减少学习未来事件预测所需的数据量，并将该方法应用于推导目标条件强化学习的离线策略算法。实验表明，与先前的强化学习方法相比，我们的方法在成功率方面取得了 2 倍的中值提高，能够更好地应对随机环境。在表格设置中，我们展示了我们的方法比后续表示方法更节约样本，比标准（蒙特卡洛）版本的对比性预测编码更节约样本数量约 20 倍和 1500 倍。

Abstract

predicting and reasoning about the future lie at the heart of many time-series questions. For example, goal-conditioned reinforcement learning can be viewed as learning representations to predict which states are likely to be visited in the future. While prior methods have used contras

predicting and reasoning contrastive predictive coding temporal difference version representation learning method off-policy algorithm

发现论文，激发创造

通过插值进行推理：对比表示可证明地实现计划和推理

给定时间序列数据，本论文展示了如何利用对比学习获得紧凑的、闭合形式的解来回答 “未来会发生什么？” 和 “我们是如何到达这一点的？” 这些概率推断问题在高维观测时很具有挑战性。我们通过对时间序列数据应用一种变体的对比学习方法来实现这些问题的解答。我们的理论验证了这种对比学习所学习到的表示遵循高斯 - 马尔科夫链。

Mar, 2024

对比预测编码的表示学习

本研究提出了一种普适的无监督学习方法 Contrastive Predictive Coding，通过使用强大的自回归模型在潜在空间中预测未来来提取高维数据的有用表示，以此学习有用的表示并在语音，图像，文本和三维环境中的强化学习中实现了强大的表现。

Jul, 2018

隐空间中的基于模型的规划的时间预测编码

本文使用时间预测编码等方法，构建了一种信息论方法的强化学习模型，可帮助解决高维度观测值与复杂背景的问题。

Jun, 2021

对比学习作为目标条件强化学习

本文提出了基于对比学习的强化学习算法，通过学习动作标记的轨迹对比学习来直接获得好的表示，并成功地将其应用于目标条件 RL 任务。在一系列任务中，对比 RL 方法表现更好，且不需要使用数据增强或辅助目标。

Jun, 2022

因果对照学习在时间上的反事实回归

本文提出了一种独特的时间反事实回归方法，通过强调长期预测，强调使用循环神经网络（RNN）进行长期预测，结合对比预测编码（CPC）和信息最大化（InfoMax），避免使用计算昂贵的变换器，捕捉到存在时间变化的混杂因素中的长期依赖关系，通过最大化序列数据和其表示之间相互信息的下界，实现了最先进的反事实估计结果，标志着对比预测编码在因果推断中的先驱性融合。

Jun, 2024

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

离线强化学习的隐式计划器：以目标条件预测编码为例

本研究探讨了序列建模在轨迹数据中提取有用表示并对政策学习做出贡献的能力，并引入了 Goal-Conditioned Predicitve Coding (GCPC) 方法，通过对未来的目标条件潜在表示进行学习实现了竞争力表现。

Jul, 2023

多任务自监督时间序列表示学习

本文提出了一种新的时间序列表示学习方法，通过自监督任务的上下文、时间和转换一致性，结合不确定性加权方法，实现了多任务学习和跨领域传递学习，进而在时间序列分类、预测和异常检测等下游任务中取得了更好表现。

Mar, 2023

对比预测编码用于异常检测

本论文使用对比学习的方法，以 Contrastive Predictive Coding 模型为基础，通过解释模型的对比损失作为异常得分，进行异常检测和分割，取得了令人满意的结果，适用于 MVTec-AD 数据集。

Jul, 2021

多智能体基于时间对比学习的迁移学习

该研究介绍了一个用于深度多智能体强化学习的新型迁移学习框架。该方法通过自动组合目标条件策略和时间对比学习，发现有意义的子目标。实验证明，该方法在多智能体协调任务 Overcooked 上能够提高样本效率，解决稀疏奖励和长期规划问题，并且相比基准方法具有更高的可解释性。与最先进的基准方法相比，我们的方法只需要原来的 21.7% 的训练样本就能达到相同或更好的性能。

Jun, 2024