ICMLJun, 2024

学习时间距离:对比继承特征为决策提供度量结构

TL;DR这篇论文研究了在随机环境中对时间距离的定义和估计,通过对比学习和拟度量学习方法,提出了一种满足三角不等式的时间距离估计方法,并展示了其在强化学习算法中的应用和性能优势。