基于策略的强化学习在 20 问题游戏中的应用

EMNLPAug, 2018

基于策略的强化学习在 20 问题游戏中的应用

Playing 20 Question Game with Policy-Based Reinforcement Learning

Huang Hu, Xianchao Wu, Bingfeng Luo, Chongyang Tao, Can Xu...

TL;DR本文提出了一种新的基于策略的强化学习方法，通过与用户的持续交互，使提问者代理学习到最优的问题选择策略。与以往方法相比，我们的强化学习方法对嘈杂的答案具有鲁棒性，不依赖于物品的知识库，在无噪音的模拟环境中具有竞争力的表现。

Abstract

The 20 Questions (Q20) game is a well known game which encourages deductive reasoning and creativity. In the game, the answerer first thinks of an object such as a famous person or a kind of animal. Then the questioner tries to guess the object by asking 20 questions. In a Q20 game system, the user is considered as the answerer while the system itself acts a

20 questions game deductive reasoning reinforcement learning optimal policy noisy answers

发现论文，激发创造

学习提问：通过 20 个问题获取知识

本文提出了一种基于 20 Questions 策略、采用 Learning-to-Ask 框架结合深度强化学习和概率矩阵分解的方法，可以有效地实现无人值守高准确度知识获取。基于实验数据结果，Learning-to-Ask 方法成功地使得智能体获得高成功率和快速知识获取的效果。

Jun, 2018

逆转二十个问题游戏

本研究旨在通过人机交互方式进行反转 20 问题游戏，使计算机选择一种实体并通过提问，人类试图猜测这种实体，从而实现自然语言查询的解析。

Jan, 2023

问对问题：强化学习的主动问题重构

本文介绍了一种称为 Active Question Answering 的基于强化学习的问题回答方法，通过探究黑盒 QA 系统并最大化回答质量来重新构筑问题，该方法在 Jeopardy! 等复杂问题数据集上表现出比其他基准模型更好的性能，并发现了与信息检索技术类似的策略。

May, 2017

聊天机器人作为问题解决者：通过角色逆转玩二十个问题

本文介绍一个基于 ChatGPT 的多角色、多步骤的二十问游戏挑战，研究发现在各种实验中，ChatGPT 可以在少于二十个问题（平均为 12 个问题）内猜出随机对象名称，并且在十六种不同的实验设置中正确率达到 94％。ChatGPT 在四种新颖的用例中扮演提问者、回答者、提问和回答双方角色，并最终尝试猜测适当的情感，并证明 ChatGPT 所表现出来的推理和问答技能可以用于复杂的蛋白质设计、神经科学元数据和儿童发展教育材料等领域。

Jan, 2023

感知世界：针对基于文本游戏的问题引导强化学习

本研究探讨了深度强化学习在文本游戏中的应用，提出了通过引入知觉模块以及使用两阶段训练框架来提高样本效率，从而解决了应用 DRL 的两个主要挑战。实验结果表明，提出的方法显着提高了性能和样本效率，并且对复合错误和数据有限的预训练表现出鲁棒性。

Mar, 2022

基于词汇情感智能的二十个问题对话系统

本文介绍了 Emotion Twenty Questions (EMO20Q) 的基于网络的演示，它是一个对话游戏，旨在研究人们如何描述情感。EMO20Q 还可用于开发能够玩游戏的人工智能对话代理程序。该系统的最新发展，包括基于变压器的神经机器学习模型和用于回答问题的系统架构和编程等方面的更新。该演示系统将可用于收集试点数据。

Oct, 2022

EAGER: 语言指导强化学习中自动奖励塑造的问答

本文中，我们使用问题生成和问题回答系统来提取辅助目标，从而实现针对自身解决问题的能力，从而提高了自动奖励塑造方法的采样效率。

Jun, 2022

通过评估假设行为学习人类目标

通过最大限度地提高信息价值的可跟踪代理来学习用户奖励模型，以与强化学习中未知动态、未知奖励函数和未知不安全状态的用户目标相一致。

Dec, 2019

任务导向的强化学习查询重构

介绍了一种基于神经网络的查询重构系统，使用强化学习训练神经网络，动作是选择术语以建立重构查询，回报是文档召回率，我们在三个数据集上评估了我们的方法，相对 Recall 方面有 5-20% 的改进。此外，我们提供了一种简单方法来估算模型在特定环境中的保守上限性能，并验证存在很大的改进空间。

Apr, 2017

询问先行：通过提问实现对新环境的泛化

通过赋予 RL 智能体询问 “是 - 否” 问题的能力以理解其环境从而在新的时间扩展环境中实现更好的泛化性能，该文研究了 RL 算法解决时间扩展任务的挑战并观察到在 Mini-Grid 环境下训练的强化学习智能体在不同环境下的显著泛化性能提高。

Sep, 2022