- 强化学习中的时间离散化特异性
我们考虑了连续时间和离散时间回报的定义之间的关系,并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境,或者粒度本身是随机的情况下,具有实际意义。
- 连续时间冲突基于搜索的团分析与绕行
研究对连续时间多智能体路径规划问题的对称性打破增强方法以及连续时间冲突基于搜索的求解器,并且通过实证研究证明这些增强方法在密集图中比以往的最新技术在相同时间内解决多达 10% 或 20% 更多智能体问题上有统计显著性的性能提升。
- 使用随机微分方程的神经结构学习
基于连续时间随机微分方程和变分推断,我们提出了一种新的结构学习方法 SCOTCH,可以自然地处理任意时间点的学习和预测观测,并在合规和非合规采样间隔下,在合成和真实数据集上表现出较好的结构学习性能。
- 非自回归基于扩散的时间点过程用于连续时间长期事件预测
我们提出了一种基于扩散的非自回归时间点过程模型,用于连续时间的长期事件预测。该模型通过发展一个双向映射来在事件序列上执行扩散过程,并设计了一种新的降噪网络来捕捉顺序和上下文特征,从而在长期事件预测中取得了优越的性能。
- 连续的状态 - 动作空间中的近连续时间强化学习
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ - McKean-Vlasov 控制问题的连续时间 q 学习
本文研究连续时间 McKean-Vlasov 控制问题中的 q-learning 方法,探究了其定义及两种不同的 q 函数,提出了相应的学习算法,并在金融应用中进行了模拟实验。
- 无强度卷积时空点过程:融合局部和全局事件上下文
利用连续时间卷积事件编码器和 RNN 集成局部和全局上下文的 TPP 建模方法在事件预测方面具有较高的准确性,这是第一个将卷积神经网络应用于 TPP 建模的工作。
- 大规模动态图的解耦图神经网络
本文提出了一种分离式图神经网络方法,适用于连续型和离散型大型动态图,通过统一的动态传播方法,能够在预测任务中支持序列模型,实现了卓越的可扩展性和表现力,实验结果在连续型和离散型动态图上均达到了最先进表现。
- 再生核希尔伯特空间的稳定性测试
通过研究 Mercer(连续)核在连续时间和整个离散时间类中,我们表明稳定性测试可以缩减到仅研究测试函数上的核算子,这些函数几乎可以在任何时候只取值于 1 和 - 1。因此,RKHS 稳定性测试成为单个线性时不变系统的 BIBO 稳定性的简 - 非约束耗散和收缩神经常微分方程的参数化
该论文介绍了一种使用神经常微分方程与循环平衡网络相结合的连续时间深度神经网络,该网络在不受限制的参数化情况下拥有可收缩和可耗散性,且可以处理非规则采样数据,用于非线性系统识别。
- 深入探究:基于跟踪数据的美式橄榄球赛中连续时间内赛果估值模型
在美式足球比赛中,使用球员追踪数据和长短时记忆循环神经网络构建球员模型,实现了比赛情况和赛况期望点值的连续时间估值。
- NIPS使用扩散小波的多尺度逆强化学习
本研究提出了一个多尺度框架,用于解决连续时间 / 状态随机系统的逆强化学习问题。通过利用与其相关的马尔可夫链的扩散小波表示来对状态空间进行抽象,此框架可以有效地处理的大型(并且几何复杂)决策空间,同时提供更可解释的演示状态轨迹和逆强化学习策 - ACL关于连续时间和离散时间量子漫步之间的关系
本文研究量子行走,提出连续时间量子行走与任意图上的离散时间量子行走之间的精确对应关系,说明连续时间量子行走是离散时间量子行走的适当极限。此外,该对应关系为模拟哈密顿动力学提供了一种新的技术,并描述了几个应用。