深度强化学习生成文本
本文提出了将位置和语法定向结构从文本中提取并使用快速卷积神经网络编码为状态的方法,并以通用和实用的方式增强奖励信号,以加快计算机智能体训练速度和提高其质量。
May, 2019
本文介绍最近相结合的 seq2seq,深度神经网络和加强学习模型,考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题,提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题,并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。
May, 2018
本文提出了一种基于深度神经网络(DNN)的序列学习方法,使用多层长短时记忆(LSTM)解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果,同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。
Sep, 2014
本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架,用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励,实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。
Nov, 2018
本文运用基于深度强化学习的 Q-networks 模型,以自然语言文本为基础,从中无限制提取行动序列,通过在线实验与现有技术进行比较,证明了本方法的有效性。
Mar, 2018
本文介绍了一种新的强化学习体系架构,它是专门设计用于处理自然语言状态和动作空间,适用于文本类型游戏。该体系架构称为深度强化相关网络(DRRN),可以将动作和状态空间表示为独立的嵌入向量,并通过交互函数与 Q 函数一起拟合以实现强化学习。在两个受欢迎的文本游戏上对 DRRN 进行评估,表现优于其他深度 Q 学习体系架构。对具有不同措辞的动作描述进行的实验表明,该模型在提取意义而非仅仅是记忆文本串方面表现出色。
Nov, 2015
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
本文提出了一种名为 RNN Encoder-Decoder 的神经网络模型,该模型由两个循环神经网络(RNN)组成,它将符号序列编码成固定长度的向量表示,并将该表示解码成另一个符号序列,并通过联合训练编码器和解码器来优化目标序列的条件概率,然后将该模型生成的条件概率应用于现有的对数线性模型中,从而提高统计机器翻译系统的性能,并且该模型能够学习到一种语义和句法上有意义的语言短语表示。
Jun, 2014
介绍了一种简单的、通用的策略,通过插值算法将 MLE-based 令牌生成策略的演员与能够估计所需属性的价值函数批判家结合来修改神经解码器的行为,从而生成具有特定属性(例如,预定长度的序列)的输出。该方法不仅能处理序列长度和后向概率等多种无法通过标准神经序列解码器处理的属性,而且在优化 BLEU 或 ROUGE 得分时能够持续改善概括性摘要和机器翻译。
Jan, 2017
该研究探讨了基于深度神经网络的自动生成响应的模型,着重讨论了结构松散的任务,如基于单词级别的对话响应生成,并提出了基于生成的编码器 - 解码器神经网络架构的新模型,以增强对话的长期历史纪录、建模对话中的不确定性和歧义性、生成具有高级组合结构的响应。
Nov, 2016