学习宏观动作的战略性专注作家

Jun, 2016

Strategic Attentive Writer for Learning Macro-Actions

Alexander, Vezhnevets, Volodymyr Mnih, John Agapiou, Simon Osindero...

TL;DR本文提出了一种名为 STRAW 的深度循环神经网络，它能够在强化学习环境中纯交互学习构建隐含计划的网络结构，该网络结构可以分割内部表示，并学习计划持续时间，从而可以学到不同长度的高级宏操作 (Task)，并且可以应用于包括 Atari 游戏和文本预测任务在内的任何 Sequence 数据，通过引入时间抽象的策略 (STRAW) 使得任务获得了强有力的改进。

Abstract

We present a novel deep recurrent neural network architecture that learns to build implicit plans in an end-to-end manner by purely interacting with an environment in reinforcement learning setting. The network builds an internal plan, which is continuously updated upon observation of

deep learning recurrent neural networks temporal abstraction reinforcement learning planning strategies

发现论文，激发创造

语言模型的战略推理

使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

May, 2023

深度强化学习模型用于摘要生成

提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型，通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要，与目前最先进模型相比，在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分，并且人工评估表明我们的模型产生了更高质量的摘要。

May, 2017

深度强化学习生成文本

提出了一种基于深度强化学习（Deep Q-Network, DQN）的序列到序列学习中，通过迭代的方式对输出序列进行解码的新型模式，旨在使解码器优先处理较为容易的序列部分，然后再处理较为困难的部分。

Oct, 2015

基于层叠分层注意力的深度强化学习在基于文本的游戏中的应用

本文研究了强化学习在基于文本的游戏中的应用，提出了利用知识图谱进行明确推理的方法，并通过分层注意机制构建了推理过程的显式表示，实验结果表明该方法优于现有的基于文本的代理人。

Oct, 2020

战略对话的分层文本生成与规划

本论文介绍了一种学习对话信息表征、提高决策效率的方法，通过解耦对话表述中的语义和语言实现，使用学习到的表征完成对话生成、规划和增强学习等任务，在实验中效果比之前的工作更佳。

Dec, 2017

长短时记忆网络自动规则提取

本文提出了一种新方法，通过追踪给定输出对 LSTM 的给定输入的重要性来识别一致重要的单词模式，从而将其简化为一组代表性短语，并基于这些短语构造了一个简单的基于规则的分类器，从而近似于 LSTM 在情感分析和问题回答上的输出。

Feb, 2017

基于注意力增强代理的可解释强化学习

本文提出了一种结合软性、自上而下的注意机制的强化学习模型，使用信息瓶颈迫使智能体只关注任务相关信息，从而生成容易解释的模型。在 ATARI 游戏上实现了与最先进模型竞争力相当的性能。

Jun, 2019

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

使用生成对抗模仿学习学习时间战略关系

该论文提出了一个新的框架，用于自动学习人类决策中的复杂策略，通过使用两个外部存储模块来捕捉子任务和整个目标之间的关系，并将其用于自主驾驶汽车应用中检验其有效性。

May, 2018

使用自然语言行动空间的深度强化学习

本文介绍了一种新的强化学习体系架构，它是专门设计用于处理自然语言状态和动作空间，适用于文本类型游戏。该体系架构称为深度强化相关网络（DRRN），可以将动作和状态空间表示为独立的嵌入向量，并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估，表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明，该模型在提取意义而非仅仅是记忆文本串方面表现出色。

Nov, 2015