尝试的事情做得不太好：强化学习中的指示性表述

Dec, 2012

尝试的事情做得不太好：强化学习中的指示性表述

The Thing That We Tried Didn't Work Very Well : Deictic Representation in Reinforcement Learning

Sarah Finney, Natalia Gardiol, Leslie Pack Kaelbling, Tim Oates

TL;DR研究表明，使用 deictic representation 来代替 propositional representation 在强化学习方面可能是一种可行的选择，但本文的实验证明，这种方法在简单的 blocks-world domain 中会使学习效果变差，作者讨论了这个结果的可能原因，并提出了更有效地在物体领域中学习的策略。

Abstract

Most reinforcement learning methods operate on propositional representations of the world state. Such representations are often intractably large and generalize poorly. Using a deictic representation is believed

reinforcement learning deictic representation learning performance propositional representation generalization

发现论文，激发创造

表征至关重要：提高机器人感知和探索能力

本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法，并从三个方面对每种表现方法进行评估，即维度，可观测性和分离度，发现在输入代理或作为辅助任务的情况下，可以显著提高性能，并挑战了什么是控制机器人 ' 好' 表示的见解。

Nov, 2020

语言即力：在强化学习中使用自然语言表示状态

研究表明使用自然语言表征的强化学习代理比视觉代理更具鲁棒性，更快收敛，表现更好，展示出使用自然语言表征的好处。

Oct, 2019

表示抽象作为强化学习智能体的激励机制：一个机器人抓取的案例研究

选择适当的环境表示对于强化学习代理的决策过程并不总是直观的，本研究考察了不同状态表示对于激励代理解决机器人任务的影响，结果显示使用数字状态的强化学习代理与非学习基线表现相当，而使用经过预训练环境嵌入向量的图像表示的代理表现更好，推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。

Sep, 2023

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

强化学习中自然语言状态表示概述

本次调查综述了文献中用于构建自然语言状态表示的策略，呼吁使用更容易理解且有基础的语言表示方法、仔细评估策略及对设计决策进行详细解释。

Jul, 2020

关联预测：面向强化学习任务无关的知识表示

通过引入归纳偏置和语义模块，将观察空间分解为对象，并以语义表征和动态知识进一步分解，提高了模型的解释性和泛化性，且实验表明，知识分离的明确程度与学习速度、准确性和解释性相关。

Dec, 2022

利用语言抽象和预训练表示进行语义探索

本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力，实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题，促进算法性能的提高。

Apr, 2022

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022