强化学习中表示的泛化

本研究针对建立连续学习中的状态表示模型问题展开讨论，为保留过去知识的同时高效压缩感知状态信息，我们提出了使用变分自编码器（Variational Auto-Encoders）作为状态表示，并基于生成样本的生成回放（Generative Replay）技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递，还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习，无需使用过去数据。

Oct, 2018

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

稳定离线强化学习的表示方法

本文研究强化学习中函数逼近不稳定的问题，提出了一种基于状态表示学习的解决方案，分析 transition matrix、proto-value functions、krylov subspace 等方案的适用范围与稳定性，并通过实验验证了可以使用随机梯度下降学习这种可靠的状态表示，从而提高深度网络对强化学习的表示学习技巧。

Jul, 2020

表征至关重要：提高机器人感知和探索能力

本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法，并从三个方面对每种表现方法进行评估，即维度，可观测性和分离度，发现在输入代理或作为辅助任务的情况下，可以显著提高性能，并挑战了什么是控制机器人 ' 好' 表示的见解。

Nov, 2020

良好的表现是否足以保证强化学习样本的高效利用？

从统计学角度出发，本文展示了关于样本高效强化学习的充分条件其实比从传统的近似观点得出的条件更加苛刻。本文的主要研究结果为强化学习方法提供了尖锐的下限，揭示了好的（基于值、基于模型或基于策略）表示本身并不足以实现高效强化学习，除非这种近似的质量通过某些硬性门槛。此外，本研究还暗示了以下因素之间的样本复杂度呈指数倍增长：1）基于值的学习与任何质量的基于值的近似学习；2）基于值的学习与基于策略的学习；3）基于策略的学习和监督学习；4）强化学习和模仿学习。

Oct, 2019